このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240215となっている論文です。

PDF登録状況(公開日: 20240215)

TitleAuthorsAbstract論文公表日・翻訳日
# 2024年の「モデルレポート用モデルカード」:信頼とリスクマネジメントの観点からの倫理的考察のカテゴリーを再分類する

"Model Cards for Model Reporting" in 2024: Reclassifying Category of Ethical Considerations in Terms of Trustworthiness and Risk Management ( http://arxiv.org/abs/2403.15394v1 )

ライセンス: Link先を確認
DeBrae Kennedy-Mayo, Jake Gord, (参考訳) 2019年、"Model Cards for Model Reporting"と題された論文は、モデルパフォーマンスを文書化する新しいツールを導入し、カテゴリの定義されたリストに対する透過的なレポートの実践を奨励した。 この論文で詳述されたカテゴリの1つは倫理的考察であり、データのサブカテゴリ、人間の生活、緩和、リスクと害、ユースケースが含まれる。 我々は、このカテゴリを、信頼に値するAIと呼ばれる分野の最近の成熟により、元のモデルカードに再分類することを提案する。 我々は、信頼できるAIのさまざまな側面に関するガイドラインを書いた、欧州委員会のAIに関するハイレベルエキスパートグループ(High-Level Expert Group)、OECD(OECD)、米国を拠点とするNIST(NIST)という、尊敬される3つの組織に注目した。 これらの最近の出版物は、説明責任、説明可能性、公正性、プライバシ、信頼性、堅牢性、安全性、セキュリティ、透明性など、この用語の多くの特性に集約されている。 倫理的考察として知られる原モデルカードカテゴリーの再分類には、以下の2段階のプロセスが伴う。 1)信頼度として知られる新たなカテゴリを追加し、そのサブカテゴリは、我々の論文における信頼に値するAIの議論から導かれる。 2 リスク環境及びリスク管理という改称されたカテゴリーの下で倫理的考察のサブカテゴリを維持すること。 この再分類によって、元の論文の目標をさらに進め、トレーニングされたモデルをリリースする人たちに、アルゴリズム特性の評価を支援するドキュメントを添付するよう促すことを願っています。

In 2019, the paper entitled "Model Cards for Model Reporting" introduced a new tool for documenting model performance and encouraged the practice of transparent reporting for a defined list of categories. One of the categories detailed in that paper is ethical considerations, which includes the subcategories of data, human life, mitigations, risks and harms, and use cases. We propose to reclassify this category in the original model card due to the recent maturing of the field known as trustworthy AI, a term which analyzes whether the algorithmic properties of the model indicate that the AI system is deserving of trust from its stakeholders. In our examination of trustworthy AI, we highlight three respected organizations - the European Commission's High-Level Expert Group on AI, the OECD, and the U.S.-based NIST - that have written guidelines on various aspects of trustworthy AI. These recent publications converge on numerous characteristics of the term, including accountability, explainability, fairness, privacy, reliability, robustness, safety, security, and transparency, while recognizing that the implementation of trustworthy AI varies by context. Our reclassification of the original model-card category known as ethical considerations involves a two-step process: 1) adding a new category known as trustworthiness, where the subcategories will be derived from the discussion of trustworthy AI in our paper, and 2) maintaining the subcategories of ethical considerations under a renamed category known as risk environment and risk management, a title which we believe better captures today's understanding of the essence of these topics. We hope that this reclassification will further the goals of the original paper and continue to prompt those releasing trained models to accompany these models with documentation that will assist in the evaluation of their algorithmic properties.
翻訳日:2024-04-01 03:13:49 公開日:2024-02-15
# スマートキャンパスのためのIoTシステム: 実世界のいくつかのユースケースにおける課題と解決策

An IoT system for a smart campus: Challenges and solutions illustrated over several real-world use cases ( http://arxiv.org/abs/2403.15395v1 )

ライセンス: Link先を確認
Tomás Domínguez-Bolaño, Valentín Barral, Carlos J. Escudero, José A. García-Naya, (参考訳) この記事では、さまざまなベンダからさまざまなデバイスやシステムを監視し、制御するためのIoTシステムの開発について論じる。 著者らは、相互運用性と統合、スケーラビリティ、データストレージ、処理、視覚化など、IoTプロジェクトの設計とデプロイメントフェーズにおける重要な課題について検討した。 これらの一般的な課題に加えて、著者らは、彼らが直面した特定の統合課題についても調べている。 システムに様々なデバイスやシステムが組み込まれ、大学構内環境における5つの現実シナリオが、遭遇した課題を説明するために使用される。 シナリオには、空気質、環境パラメータ、エネルギー効率、太陽熱エネルギー、エネルギー消費など、大学のキャンパス環境の様々な側面を監視することが含まれる。 著者らは、システムがデバイスによって生成された大量のデータを処理できるように、データとCPUの使用状況を分析した。 このプラットフォームはHome Assistant、InfluxDB、Grafana、Node-REDといったオープンソースプロジェクトを利用している。 すべての開発が公開リポジトリでオープンソースとして公開されている。 結論として、この研究は、さまざまな実世界のアプリケーションにおけるIoTシステムの可能性と実現可能性、設計とデプロイメントフェーズにおけるIoTプロジェクトにおける重要な課題を検討することの重要性、直面する可能性のある具体的な統合上の課題を強調している。

This article discusses the development of an IoT system for monitoring and controlling various devices and systems from different vendors. The authors considered key challenges in IoT projects, such as interoperability and integration, scalability, and data storage, processing, and visualization, during the design and deployment phases. In addition to these general challenges, the authors also delve into the specific integration challenges they encountered. Various devices and systems were integrated into the system and five real-world scenarios in a university campus environment are used to illustrate the challenges encountered. The scenarios involve monitoring various aspects of a university campus environment, including air quality, environmental parameters, energy efficiency, solar photovoltaic energy, and energy consumption. The authors analyzed data and CPU usage to ensure that the system could handle the large amount of data generated by the devices. The platform developed uses open source projects such as Home Assistant, InfluxDB, Grafana, and Node-RED. All developments have been published as open source in public repositories. In conclusion, this work highlights the potential and feasibility of IoT systems in various real-world applications, the importance of considering key challenges in IoT projects during the design and deployment phases, and the specific integration challenges that may be encountered.
翻訳日:2024-04-01 03:13:49 公開日:2024-02-15
# 北温帯湖沼における溶存酸素濃度予測のための自然誘導型認知進化

Nature-Guided Cognitive Evolution for Predicting Dissolved Oxygen Concentrations in North Temperate Lakes ( http://arxiv.org/abs/2403.18923v1 )

ライセンス: Link先を確認
Runlong Yu, Robert Ladwig, Xiang Xu, Peijun Zhu, Paul C. Hanson, Yiqun Xie, Xiaowei Jia, (参考訳) 北温帯湖沼における溶存酸素(DO)濃度の予測には、様々な生態系にまたがる現象学的パターンの総合的な研究が必要である。 プロセスベースのモデルは、部分的なプロセス知識や過剰に単純化された特徴表現によって制限される一方、機械学習モデルは、特にDOデータ収集の頻度の低い性質の下で、異なるレイクタイプやタスクに対する関連する機能インタラクションを効率的に選択する上で、課題に直面します。 本稿では,自然指導型認知進化(NGCE)戦略を提案する。 具体的には、メタボリックプロセスに基づくモデルを用いて、シミュレーションされたDOラベルを生成する。 これらのシミュレートされたラベルを用いて、モデル、天然生物のミラー化、適応的に進化し、異なるタイプの湖沼やタスクのために、個体群内の関連する特徴的相互作用を選択する、多集団の認知的進化的探索を行う。 これらのモデルは、内部集団内での交叉と突然変異のメカニズムを遂行するだけでなく、しばしば集団間交叉に関与する。 第2段階では、実際に観測されたラベルでこれらのモデルをトレーニングすることで、これらのモデルを精錬する。 我々は,米国中西部の湖沼において,毎日のDO濃度を予測するためのNGCE戦略の有効性を検証した。 これらの湖は大きさ、深さ、栄養状態が異なり、北温帯湖の広い範囲を表している。 以上の結果から,NGCEは観測されたラベルの少ない正確な予測を行うだけでなく,モデルの遺伝子マップを通じて,湖沼の洗練された表現学的パターンを明らかにすることが示唆された。

Predicting dissolved oxygen (DO) concentrations in north temperate lakes requires a comprehensive study of phenological patterns across various ecosystems, which highlights the significance of selecting phenological features and feature interactions. Process-based models are limited by partial process knowledge or oversimplified feature representations, while machine learning models face challenges in efficiently selecting relevant feature interactions for different lake types and tasks, especially under the infrequent nature of DO data collection. In this paper, we propose a Nature-Guided Cognitive Evolution (NGCE) strategy, which represents a multi-level fusion of adaptive learning with natural processes. Specifically, we utilize metabolic process-based models to generate simulated DO labels. Using these simulated labels, we implement a multi-population cognitive evolutionary search, where models, mirroring natural organisms, adaptively evolve to select relevant feature interactions within populations for different lake types and tasks. These models are not only capable of undergoing crossover and mutation mechanisms within intra-populations but also, albeit infrequently, engage in inter-population crossover. The second stage involves refining these models by retraining them with real observed labels. We have tested the performance of our NGCE strategy in predicting daily DO concentrations across a wide range of lakes in the Midwest, USA. These lakes, varying in size, depth, and trophic status, represent a broad spectrum of north temperate lakes. Our findings demonstrate that NGCE not only produces accurate predictions with few observed labels but also, through gene maps of models, reveals sophisticated phenological patterns of different lakes.
翻訳日:2024-04-01 02:25:04 公開日:2024-02-15
# ChatGPTによる養殖現場の検出

Detecting Phishing Sites Using ChatGPT ( http://arxiv.org/abs/2306.05816v2 )

ライセンス: Link先を確認
Takashi Koide, Naoki Fukushi, Hiroki Nakano, Daiki Chiba, (参考訳) ChatGPTを含むLarge Language Models (LLMs)の出現は、幅広い分野に大きな影響を与えている。 LLMは、コード生成やテキスト合成といったタスクのために広く研究されてきたが、悪意のあるWebコンテンツ、特にフィッシングサイトを検出するための応用は、ほとんど探索されていない。 LLMの誤用によるサイバー攻撃の高まりに対処するためには、LLMの高度な能力を活用して検出を自動化することが重要である。 本稿では, LLMを用いたフィッシングサイト検出システムChatPhishDetectorを提案する。 本システムでは,Webクローラを利用してWebサイトから情報を収集し,クローリングデータに基づいてLLMのプロンプトを生成し,LLMが生成した応答から検出結果を取得する。 本システムは,機械学習モデルをトレーニングすることなく,Webサイト全体のコンテキストにおいて,偽造ブランドやソーシャルエンジニアリング技術を特定することで,多言語フィッシングサイトを高精度に検出することを可能にする。 システムの性能を評価するため,我々のデータセットを用いて実験を行い,ベースラインシステムや複数のLLMと比較した。 GPT-4Vを用いた実験結果は、98.7%の精度と99.6%のリコールで優れた性能を示し、他のLLMや既存のシステムよりも優れていた。 これらの知見は、ユーザをオンライン不正行為から保護し、サイバーセキュリティ対策の強化に重要な意味を持つLLMの可能性を浮き彫りにしている。

The emergence of Large Language Models (LLMs), including ChatGPT, is having a significant impact on a wide range of fields. While LLMs have been extensively researched for tasks such as code generation and text synthesis, their application in detecting malicious web content, particularly phishing sites, has been largely unexplored. To combat the rising tide of cyber attacks due to the misuse of LLMs, it is important to automate detection by leveraging the advanced capabilities of LLMs. In this paper, we propose a novel system called ChatPhishDetector that utilizes LLMs to detect phishing sites. Our system involves leveraging a web crawler to gather information from websites, generating prompts for LLMs based on the crawled data, and then retrieving the detection results from the responses generated by the LLMs. The system enables us to detect multilingual phishing sites with high accuracy by identifying impersonated brands and social engineering techniques in the context of the entire website, without the need to train machine learning models. To evaluate the performance of our system, we conducted experiments on our own dataset and compared it with baseline systems and several LLMs. The experimental results using GPT-4V demonstrated outstanding performance, with a precision of 98.7% and a recall of 99.6%, outperforming the detection results of other LLMs and existing systems. These findings highlight the potential of LLMs for protecting users from online fraudulent activities and have important implications for enhancing cybersecurity measures.
翻訳日:2024-03-25 23:48:38 公開日:2024-02-15
# セキュリティの現状 -- ドイツのソフトウェア産業からの洞察

The current state of security -- Insights from the German software industry ( http://arxiv.org/abs/2402.08436v2 )

ライセンス: Link先を確認
Timo Langstrof, Alex R. Sabau, (参考訳) 最近では、ソフトウェア開発とセキュリティが手を差し伸べています。 ソフトウェア開発プロセスにセキュリティが組み込まれることを保証するために、多くの技術と戦略が適用可能な文献で議論されている。 本稿では,本稿で論じられているセキュアなソフトウェア開発の主な考え方を概説する。 次に、20社による質的なインタビュー調査を通じて、実際に実施されているデータセットを収集する。 このデータセットの傾向と相関は文献の理論的考えと対比される。 その結果、世論調査を受けた組織は、セキュリティに重点を置いていることがわかった。 文献に書かれている技術は現実世界で使われているが、形式化された標準化されたプロセスに完全には統合されていないことが多い。 私たちの研究から得られた洞察は、これらの手法の特定の要素を深く掘り下げて、現実のシナリオにおけるアプリケーションの理解を深める、将来の研究の土台となった。

These days, software development and security go hand in hand. Numerous techniques and strategies are discussed in the literature that can be applied to guarantee the incorporation of security into the software development process. In this paper the main ideas of secure software development that have been discussed in the literature are outlined. Next, a dataset on implementation in practice is gathered through a qualitative interview research involving 20 companies. Trends and correlations in this dataset are found and contrasted with theoretical ideas from the literature. The results show that the organizations that were polled are placing an increasing focus on security. Although the techniques covered in the literature are being used in the real world, they are frequently not fully integrated into formal, standardized processes. The insights gained from our research lay the groundwork for future research, which can delve deeper into specific elements of these methods to enhance our understanding of their application in real-world scenarios.
翻訳日:2024-03-25 11:19:24 公開日:2024-02-15
# 署名IDS規則の修正空間の特徴付け

Characterizing the Modification Space of Signature IDS Rules ( http://arxiv.org/abs/2402.09644v1 )

ライセンス: Link先を確認
Ryan Guide, Eric Pauley, Yohan Beugin, Ryan Sheatsley, Patrick McDaniel, (参考訳) SIDS (Signature-based Intrusion Detection Systems) は、伝統的にネットワーク内の悪意ある活動を検出するために使用される。 そのようなシステムの顕著な例は、ネットワークトラフィックを既知のエクスプロイトにマッチする一連のルールと比較するSnortである。 現在のSIDSルールは、不正にフラグ付けされた正当なトラフィックの量を最小限に抑え、ネットワーク管理者の負担を軽減するように設計されている。 しかしながら、研究者が既知のエクスプロイトの傾向を調査したり、修正したバージョンを分析したりするなど、従来のものと異なるユースケースでは、SIDSの運用には制約が少なくなる可能性がある。 本稿では、実世界のSIDSルールに修正を適用することで、制約を緩和し、修正されたルールの性能空間を特徴付けることを実証する。 SIDSルールの変更の空間を探索するための反復的なアプローチを開発する。 性能曲線のROC曲線を拡大し、さらに変化させることで、ルールを指示された方法で変更する方法を示す。 クラウド望遠鏡から収集・特定されたトラフィックを用いて、SIDSルールから1つのコンポーネントを除去することは、パフォーマンス空間に最も大きな影響を与える。 SIDSルールを効果的に修正して制約を減らすことで、セキュリティの向上から研究目的まで、さまざまな目的に対する広範な検出が可能になる。

Signature-based Intrusion Detection Systems (SIDSs) are traditionally used to detect malicious activity in networks. A notable example of such a system is Snort, which compares network traffic against a series of rules that match known exploits. Current SIDS rules are designed to minimize the amount of legitimate traffic flagged incorrectly, reducing the burden on network administrators. However, different use cases than the traditional one--such as researchers studying trends or analyzing modified versions of known exploits--may require SIDSs to be less constrained in their operation. In this paper, we demonstrate that applying modifications to real-world SIDS rules allow for relaxing some constraints and characterizing the performance space of modified rules. We develop an iterative approach for exploring the space of modifications to SIDS rules. By taking the modifications that expand the ROC curve of performance and altering them further, we show how to modify rules in a directed manner. Using traffic collected and identified as benign or malicious from a cloud telescope, we find that the removal of a single component from SIDS rules has the largest impact on the performance space. Effectively modifying SIDS rules to reduce constraints can enable a broader range of detection for various objectives, from increased security to research purposes.
翻訳日:2024-03-25 11:19:24 公開日:2024-02-15
# HOACS:COTSプロセッサにおけるトロイの木馬攻撃に対する秘密の収集を支援する同型難読化

HOACS: Homomorphic Obfuscation Assisted Concealing of Secrets to Thwart Trojan Attacks in COTS Processor ( http://arxiv.org/abs/2402.09701v1 )

ライセンス: Link先を確認
Tanvir Hossain, Matthew Showers, Mahmudul Hasan, Tamzidul Hoque, (参考訳) 商用オフ・ザ・シェルフ(COTS)コンポーネントは、システム開発時間とコストの削減、新しい技術の導入の容易化、代替可能性を達成するために、カスタム集積回路(IC)よりも好まれる。 残念ながら、COTSコンポーネントの統合は深刻なセキュリティ上の懸念をもたらす。 COTS ICサプライチェーンのエンティティはいずれもコンシューマの観点から信頼されておらず、'ゼロ信頼'の脅威モデルにつながります。 これらのエンティティのどれでも、コンポーネント内に隠された悪意のある回路やハードウェアのTrojanを導入して、フィールドの攻撃者が秘密情報(暗号鍵など)を抽出したり、機能不全を引き起こしたりすることができる。 既存のハードウェアであるトロイの木馬は、デザインハウスかファウントリーが信頼されていると仮定し、分析や修正に利用できる設計とみなすため、ゼロトラストのシナリオでは適用できない。 本研究では,既存のCOTSマイクロプロセッサにシームレスに統合可能なハードウェアトロイの木馬に対して,秘密資産の機密性を確保するためのソフトウェア指向対策を提案する。 提案したソリューションは、サプライチェーンエンティティを信頼する必要はなく、IC設計の分析や修正を必要としない。 非信頼マイクロプロセッサにおけるシークレットアセットを保護するため,提案手法は残余数符号化(RNC)の概念を利用して,アセット上で動作するソフトウェア機能を完全同型に変換する。 我々は,AES(Advanced Encryption Standard)プログラムで秘密鍵を保護するために提案手法を実装し,詳細なセキュリティ分析を行った。 また、AESに自動的にソリューションを統合するLLVMコンパイラツールチェーン用のプラグインも開発しました。 最後に, RNC法における演算の実行時間オーバーヘッドと同相解との比較を行い, 大幅な改善を示した。

Commercial-off-the-shelf (COTS) components are often preferred over custom Integrated Circuits (ICs) to achieve reduced system development time and cost, easy adoption of new technologies, and replaceability. Unfortunately, the integration of COTS components introduces serious security concerns. None of the entities in the COTS IC supply chain are trusted from a consumer's perspective, leading to a ''zero trust'' threat model. Any of these entities could introduce hidden malicious circuits or hardware Trojans within the component, allowing an attacker in the field to extract secret information (e.g., cryptographic keys) or cause a functional failure. Existing solutions to counter hardware Trojans are inapplicable in such a zero-trust scenario as they assume either the design house or the foundry to be trusted and consider the design to be available for either analysis or modification. In this work, we have proposed a software-oriented countermeasure to ensure the confidentiality of secret assets against hardware Trojans that can be seamlessly integrated in existing COTS microprocessors. The proposed solution does not require any supply chain entity to be trusted and does not require analysis or modification of the IC design. To protect secret assets in an untrusted microprocessor, the proposed method leverages the concept of residue number coding (RNC) to transform the software functions operating on the asset to be fully homomorphic. We have implemented the proposed solution to protect the secret key within the Advanced Encryption Standard (AES) program and presented a detailed security analysis. We also have developed a plugin for the LLVM compiler toolchain that automatically integrates the solution in AES. Finally, we compare the execution time overhead of the operations in the RNC-based technique with comparable homomorphic solutions and demonstrate significant improvement.
翻訳日:2024-03-25 11:19:24 公開日:2024-02-15
# 分散Web 3.0アプリケーションのためのフェデレーション分析を利用した周波数パターンマイニング

Federated Analytics-Empowered Frequent Pattern Mining for Decentralized Web 3.0 Applications ( http://arxiv.org/abs/2402.09736v1 )

ライセンス: Link先を確認
Zibo Wang, Yifei Zhu, Dan Wang, Zhu Han, (参考訳) 新たなWeb 3.0パラダイムは、既存のWebサービスを分散化し、透明性やインセンティブ、プライバシ保護といった望ましいプロパティを実現することを目的としている。 しかし、ブロックチェーンインフラストラクチャでサポートされている現在のWeb 3.0アプリケーションは、スケーラブルでプライバシ保護の方法では、複雑なデータ分析タスクをサポートできない。 本稿では,Web 3.0 サービスの領域に新たなフェデレーション・アナリティクス(FA)パラダイムを導入し,複雑な Web 分析タスクにプライバシ保護の方法で貢献しながらデータをローカルに維持することを可能にする。 我々は、Web 3.0における重要な頻繁なパターンマイニングタスクのためのFA設計であるFedWebを提案する。 FedWebは、新しい分散差分プライバシー技術に基づいて、プライバシを保存するWeb 3.0データ分析をサポートするために必要なデータ所有者の数を大幅に削減する。 マイニング結果の正しさは、ホーフディングの不等式とチェビシェフの不等式に基づく理論的に堅固な候補フィルタリングスキームによって保証される。 2つのレスポンス予算削減ソリューションが提案され、データ所有者のさらなる削減が図られている。 3つの代表的なWeb 3.0シナリオの実験は、FedWebがデータユーティリティを約25.3%改善し、データ所有者を約98.4%削減できることを示している。

The emerging Web 3.0 paradigm aims to decentralize existing web services, enabling desirable properties such as transparency, incentives, and privacy preservation. However, current Web 3.0 applications supported by blockchain infrastructure still cannot support complex data analytics tasks in a scalable and privacy-preserving way. This paper introduces the emerging federated analytics (FA) paradigm into the realm of Web 3.0 services, enabling data to stay local while still contributing to complex web analytics tasks in a privacy-preserving way. We propose FedWeb, a tailored FA design for important frequent pattern mining tasks in Web 3.0. FedWeb remarkably reduces the number of required participating data owners to support privacy-preserving Web 3.0 data analytics based on a novel distributed differential privacy technique. The correctness of mining results is guaranteed by a theoretically rigid candidate filtering scheme based on Hoeffding's inequality and Chebychev's inequality. Two response budget saving solutions are proposed to further reduce participating data owners. Experiments on three representative Web 3.0 scenarios show that FedWeb can improve data utility by ~25.3% and reduce the participating data owners by ~98.4%.
翻訳日:2024-03-25 11:19:24 公開日:2024-02-15
# JustSTART:Xilinx UltraScale(+)上のRSA認証バイパスのファジング

JustSTART: How to Find an RSA Authentication Bypass on Xilinx UltraScale(+) with Fuzzing ( http://arxiv.org/abs/2402.09845v1 )

ライセンス: Link先を確認
Maik Ender, Felix Hahn, Marc Fyrbiak, Amir Moradi, Christof Paar, (参考訳) ファジィング(fuzzing)は、バグや脆弱性を明らかにするための、ソフトウェア領域で確立されたテクニックである。 しかし、ハードウェアシステムのセキュリティ脆弱性に対するファジィングの応用は、設計情報アクセス(HDLソースコード)の要件が主な理由であるため、ほとんどない。 さらに、実行中の内部ハードウェア状態の監視は、一般的には、そのドキュメントが一般に公開されていないため、効果の低い情報ソースである。 また、帯域制限解析インタフェース(JTAG、内部モジュールの最小イントロスペクション)により、実行中のそのような観察も非効率である。 本研究では,FPGA内の(セキュアな)ビットストリーム構成を管理する制御プレーンである,7系列およびUltraScale(+)FPGA構成エンジンのファジリングについて検討する。 我々のゴールは、FPGA構成エンジンの不透明な内部動作を分析し、文書化するためのファジングの有効性を調べることであり、セキュリティ上の脆弱性の特定に重点を置いている。 利用可能なチップと分散ドキュメントのみを使用して、先進的なFPGA構成エンジンファジングと高速プロトタイピングフレームワークであるConFuzzを設計、実装する。 ビットストリームファイルフォーマットの詳細な理解に基づいて、Xilinx構成エンジンの3つの新しいキーファジィング戦略を体系的に定義する。 さらに,本手法は変異構造を意識したファジィザを用いて実行し,FPGA固有の新しい最適化手法を取り入れた。 本評価では,FPGAの非応答状態に繋がるシステムクラッシュなどの重要な発見を含む,構成エンジン内での未文書化動作を明らかにする。 さらに,本研究は飢餓の再発の原因となるだけでなく,Xilinx UltraScale(+)のRSA認証を回避できるJustSTART(CVE-2023-20570)の発見にも繋がる。 また、対策についても論じる。

Fuzzing is a well-established technique in the software domain to uncover bugs and vulnerabilities. Yet, applications of fuzzing for security vulnerabilities in hardware systems are scarce, as principal reasons are requirements for design information access (HDL source code). Moreover, observation of internal hardware state during runtime is typically an ineffective information source, as its documentation is often not publicly available. In addition, such observation during runtime is also inefficient due to bandwidth-limited analysis interfaces (JTAG, and minimal introspection of internal modules). In this work, we investigate fuzzing for 7-Series and UltraScale(+) FPGA configuration engines, the control plane governing the (secure) bitstream configuration within the FPGA. Our goal is to examine the effectiveness of fuzzing to analyze and document the opaque inner workings of FPGA configuration engines, with a primary emphasis on identifying security vulnerabilities. Using only the publicly available chip and dispersed documentation, we first design and implement ConFuzz, an advanced FPGA configuration engine fuzzing and rapid prototyping framework. Based on our detailed understanding of the bitstream file format, we then systematically define 3 novel key fuzzing strategies for Xilinx configuration engines. Moreover, our strategies are executed through mutational structure-aware fuzzers and incorporate various novel custom-tailored, FPGA-specific optimizations. Our evaluation reveals previously undocumented behavior within the configuration engine, including critical findings such as system crashes leading to unresponsive states of the FPGA. In addition, our investigations not only lead to the rediscovery of the starbleed attack but also uncover JustSTART (CVE-2023-20570), capable of circumventing RSA authentication for Xilinx UltraScale(+). Note that we also discuss countermeasures.
翻訳日:2024-03-25 11:19:24 公開日:2024-02-15
# TSTEM: 野生におけるサイバー脅威情報収集のための認知プラットフォーム

TSTEM: A Cognitive Platform for Collecting Cyber Threat Intelligence in the Wild ( http://arxiv.org/abs/2402.09973v1 )

ライセンス: Link先を確認
Prasasthy Balasubramanian, Sadaf Nazari, Danial Khosh Kholgh, Alireza Mahmoodi, Justin Seby, Panos Kostakos, (参考訳) オープンソースからサイバー脅威インテリジェンス(CTI)を抽出することは、大規模サイバー攻撃に対するIT(Information Technology)とOT(Operational Technology)環境のレジリエンスを高める、急速に拡大する防衛戦略である。 以前の調査では、抽出プロセスの個々のコンポーネントの改善に重点を置いていたが、コミュニティには、ストリーミングCTIデータパイプラインを野放しに展開するオープンソースプラットフォームが欠如している。 このギャップに対処するために、クラウドコンピューティングのパラダイムに基づいて計算集約的なデータパイプラインを処理し、異なるオンラインソースからのリアルタイム検出、収集、共有が可能な、効率的で優れたプラットフォームの実装について説明する。 私たちは、Tweepy、Scrapy、Terraform、ELK、Kafka、MLOpsを使用して、野生のIOCを自律的に検索、抽出、インデックスするコンテナ化されたマイクロサービスアーキテクチャである、プロトタイププラットフォーム(TSTEM)を開発しました。 さらに、TSTEMプラットフォームのプロビジョニング、監視、管理は、インフラストラクチャ・アズ・コード(IaC)を通じて行われる。 カスタムフォーカスクローラはWebコンテンツを収集し、第1レベルの分類器によって処理され、妥協の潜在的な指標(IOC)を特定する。 関連性があると判断された場合、コンテンツはさらなる検査のために第2レベルの抽出に進む。 このプロセスを通じて、最先端のNLPモデルは分類と実体抽出に利用され、IOC全体の抽出手法が強化される。 実験の結果,これらのモデルでは分類および抽出作業において高い精度(98%)を示し,その性能は1分以内の時間枠で達成できた。 本システムの有効性は,複数の段階で動作し,偽陽性率の低い関連情報の正確な識別を確実にする,微調整のIOC抽出法によるものである。

The extraction of cyber threat intelligence (CTI) from open sources is a rapidly expanding defensive strategy that enhances the resilience of both Information Technology (IT) and Operational Technology (OT) environments against large-scale cyber-attacks. While previous research has focused on improving individual components of the extraction process, the community lacks open-source platforms for deploying streaming CTI data pipelines in the wild. To address this gap, the study describes the implementation of an efficient and well-performing platform capable of processing compute-intensive data pipelines based on the cloud computing paradigm for real-time detection, collecting, and sharing CTI from different online sources. We developed a prototype platform (TSTEM), a containerized microservice architecture that uses Tweepy, Scrapy, Terraform, ELK, Kafka, and MLOps to autonomously search, extract, and index IOCs in the wild. Moreover, the provisioning, monitoring, and management of the TSTEM platform are achieved through infrastructure as a code (IaC). Custom focus crawlers collect web content, which is then processed by a first-level classifier to identify potential indicators of compromise (IOCs). If deemed relevant, the content advances to a second level of extraction for further examination. Throughout this process, state-of-the-art NLP models are utilized for classification and entity extraction, enhancing the overall IOC extraction methodology. Our experimental results indicate that these models exhibit high accuracy (exceeding 98%) in the classification and extraction tasks, achieving this performance within a time frame of less than a minute. The effectiveness of our system can be attributed to a finely-tuned IOC extraction method that operates at multiple stages, ensuring precise identification of relevant information with low false positives.
翻訳日:2024-03-25 11:19:24 公開日:2024-02-15
# 暗号化におけるEM-SCA攻撃の体系的文献レビュー

Systematic Literature Review of EM-SCA Attacks on Encryption ( http://arxiv.org/abs/2402.10030v1 )

ライセンス: Link先を確認
Muhammad Rusyaidi Zunaidi, Asanka Sayakkara, Mark Scanlon, (参考訳) データセキュリティには暗号が不可欠だが、暗号アルゴリズムは依然として、サイドチャネル攻撃(SCA)、電力消費とEM放射を利用した物理的攻撃に弱い可能性がある。 SCAは暗号の完全性に重大な脅威をもたらし、デバイスキーを妥協する。 SCAに関する文献は、現実世界のデバイスに焦点を当てているが、洗練されたデバイスの台頭は、新しいアプローチを必要としている。 電磁サイドチャネル分析(EM-SCA)は、EM放射をモニタリングすることで情報を収集し、暗号鍵を検索し、悪意のある活動を検出する。 本研究は,EM-SCAがシナリオ間の暗号化に与える影響を評価し,デジタル法科学と法執行機関におけるその役割について検討する。 EM-SCAに対する暗号化の感受性に対処することで、法執行機関において重要な役割を担いながら、暗号化の課題を克服する上で、法医学研究者に力を与えることができる。 さらに、暗号化攻撃におけるEM-SCAの現在の状態を定義し、脆弱で耐性のある暗号化アルゴリズムとデバイスを強調し、EM-SCAアプローチを約束する。 本研究は,法執行機関およびデジタル法医学におけるEM-SCAの包括的分析を行い,さらなる研究の道筋を示唆するものである。

Cryptography is vital for data security, but cryptographic algorithms can still be vulnerable to side-channel attacks (SCAs), physical assaults exploiting power consumption and EM radiation. SCAs pose a significant threat to cryptographic integrity, compromising device keys. While literature on SCAs focuses on real-world devices, the rise of sophisticated devices necessitates fresh approaches. Electromagnetic side-channel analysis (EM-SCA) gathers information by monitoring EM radiation, capable of retrieving encryption keys and detecting malicious activity. This study evaluates EM-SCA's impact on encryption across scenarios and explores its role in digital forensics and law enforcement. Addressing encryption susceptibility to EM-SCA can empower forensic investigators in overcoming encryption challenges, maintaining their crucial role in law enforcement. Additionally, the paper defines EM-SCA's current state in attacking encryption, highlighting vulnerable and resistant encryption algorithms and devices, and promising EM-SCA approaches. This study offers a comprehensive analysis of EM-SCA in law enforcement and digital forensics, suggesting avenues for further research.
翻訳日:2024-03-25 09:06:20 公開日:2024-02-15
# マルチフラクタル次元表現によるRFフィンガープリントの領域一般化可能性について

On the Domain Generalizability of RF Fingerprints Through Multifractal Dimension Representation ( http://arxiv.org/abs/2402.10044v1 )

ライセンス: Link先を確認
Benjamin Johnson, Bechir Hamdaoui, (参考訳) 近年,深層学習によるRFデータ駆動型デバイス指紋認証が,セキュアなデバイス識別と認証を可能にする方法として浮上している。 従来のアプローチは、あるドメインで収集されたデータに基づいてトレーニングされたモデルが異なるドメインで収集されたデータ上でテストされた場合、そのドメイン適応の問題に一般的に影響を受けます。 ドメインの変更の例としては、デバイスの位置や環境を変更し、データ収集の時間や日を変更するものがある。 本研究では,深部ニューラルネットワークに入力されるデータ表現として,マルチフラクタル解析と分散フラクタル次元軌跡(VFDT)を用いて,ドメインを一般化可能なデバイス指紋を抽出する。 ハードウェア不備なIQ信号からデバイス固有のシグネチャを検出するために提案したVFDT表現の有効性を解析し,30個のWiFi対応Pycomデバイスの実験的なテストベッドを用いて実環境におけるロバスト性を評価する。 実験結果から,提案したVFDT表現は,IQデータを用いた場合と比較して,ディープラーニングモデルのスケーラビリティ,堅牢性,一般化性を著しく向上することが示された。

RF data-driven device fingerprinting through the use of deep learning has recently surfaced as a possible method for enabling secure device identification and authentication. Traditional approaches are commonly susceptible to the domain adaptation problem where a model trained on data collected under one domain performs badly when tested on data collected under a different domain. Some examples of a domain change include varying the location or environment of the device and varying the time or day of the data collection. In this work, we propose using multifractal analysis and the variance fractal dimension trajectory (VFDT) as a data representation input to the deep neural network to extract device fingerprints that are domain generalizable. We analyze the effectiveness of the proposed VFDT representation in detecting device-specific signatures from hardware-impaired IQ (in-phase and quadrature) signals, and we evaluate its robustness in real-world settings, using an experimental testbed of 30 WiFi-enabled Pycom devices. Our experimental results show that the proposed VFDT representation improves the scalability, robustness and generalizability of the deep learning models significantly compared to when using IQ data samples.
翻訳日:2024-03-25 09:06:20 公開日:2024-02-15
# ブロックチェーンにおけるトランザクション能力、セキュリティ、レイテンシ

Transaction Capacity, Security and Latency in Blockchains ( http://arxiv.org/abs/2402.10138v1 )

ライセンス: Link先を確認
Mustafa Doger, Sennur Ulukus, (参考訳) ネットワーク遅延モデルを用いて,ブロックがk-deepになった後,ブロックがいかにセキュアであるか,すなわちセキュリティレイテンシを解析する。 十分にチェーンの奥深くにある場合、トランザクションが安全であるパラメータのレギュレーションを与えます。 我々は,ネットワーク遅延モデルに基づく中本コンセンサスの結果を比較し,安全違反閾値の類似境界を求める。 次に、ブロックチェーンシステムを指数的ネットワーク遅延を伴うバッチサービスキューとしてモデル化し、セキュリティレイテンシ分析をキューシステムの持続可能なトランザクションレートに接続する。 私たちのモデルは、指数関数的なネットワーク遅延を前提としていますが、バッチサービスキューモデルは、トランザクションキャパシティ、セキュリティ、レイテンシ間で有意義なトレードオフを提供します。 敵がキューサービスを攻撃してサービスプロセスを妨げることができるので、敵に対する2つの異なる攻撃を検討します。 極端なシナリオでは、この目的のためにセルフリッシュマイニング攻撃を修正し、キューの持続的なトランザクションレートへの影響を考慮します。

We analyze how secure a block is after the block becomes k-deep, i.e., security-latency, for Nakamoto consensus under an exponential network delay model. We give parameter regimes for which transactions are safe when sufficiently deep in the chain. We compare our results for Nakamoto consensus under bounded network delay models and obtain analogous bounds for safety violation threshold. Next, modeling the blockchain system as a batch service queue with exponential network delay, we connect the security-latency analysis to sustainable transaction rate of the queue system. As our model assumes exponential network delay, batch service queue models give a meaningful trade-off between transaction capacity, security and latency. As adversary can attack the queue service to hamper the service process, we consider two different attacks for adversary. In an extreme scenario, we modify the selfish-mining attack for this purpose and consider its effect on the sustainable transaction rate of the queue.
翻訳日:2024-03-25 09:06:20 公開日:2024-02-15
# Hacktivismが軌道へ:NB65のROSCOSMOS買収を調査

Hacktivism Goes Orbital: Investigating NB65's Breach of ROSCOSMOS ( http://arxiv.org/abs/2402.10324v1 )

ライセンス: Link先を確認
Rajiv Thummala, Gregory Falco, (参考訳) 2022年3月、アノニマスのハクティビストであるネットワーク大隊65(NB65)は、ロシアによるウクライナ侵攻に対応してROSCOSMOSの衛星撮影能力の侵害に成功したと公に主張した。 NB65は、ROSCOSMOSの宇宙ベースの車両監視システムと関連するプロプライエタリな文書の文書化を公表し、一連の主要な情報源をサブストラテテーションとして広めた。 宇宙セクターへのハクティビストの侵入が深く影響しているにもかかわらず、この出来事は技術的攻撃ベクトルの欠如とROCOSMOSによるNB65の主張の否定により、限られた注目を集めている。 NB65が公表した主要な証拠源の分析を通じて、この論文はROSCOSMOSの地上と宇宙セグメントに侵入したとされる可能性のある脆弱性とエクスプロイトを明らかにする。 さらに、我々は、このイベントが世界航空宇宙コミュニティにもたらす教訓と結果を強調します。

In March of 2022, Network battalion 65 (NB65), a hacktivist affiliate of Anonymous, publicly asserted its successful breach of ROSCOSMOS's satellite imaging capabilities in response to Russia's invasion of Ukraine. NB65 disseminated a series of primary sources as substantiation, proclaiming the incapacitation of ROSCOSMOS's space-based vehicle monitoring system and doxing of related proprietary documentation. Despite the profound implications of hacktivist incursions into the space sector, the event has garnered limited attention due to the obscurity of technical attack vectors and ROCOSMOS's denial of NB65's allegations. Through analysis of NB65's released primary sources of evidence, this paper uncovers the probable vulnerabilities and exploits that enabled the alleged breach into ROSCOSMOS's ground and space segment. Additionally, we highlight lessons learned and the consequences this event has for the global aerospace community.
翻訳日:2024-03-25 09:06:20 公開日:2024-02-15
# 適応型リレーショナルグラフニューラルネットワークによる認知診断モデルの改善

Improving Cognitive Diagnosis Models with Adaptive Relational Graph Neural Networks ( http://arxiv.org/abs/2403.05559v1 )

ライセンス: Link先を確認
Pengyang Shao, Chen Gao, Lei Chen, Yonghui Yang, Kun Zhang, Meng Wang, (参考訳) 認知診断(CD)アルゴリズムは、知的教育に対する研究の関心が高まっている。 通常、これらのCDアルゴリズムは生徒の能力(すなわち、様々な知識概念の習熟度)を推定することで学生を支援する。 熟練度は、さらに標的となるスキルトレーニングと個別のエクササイズレコメンデーションを可能にし、オンライン教育における学習効率を高めることができる。 近年,学生による2部グラフの構築と導入が診断性能の向上に有用であることが報告されている。 しかし、研究にはまだ限界がある。 一方、研究者はエッジ内の不均一性を見落とし、正しい答えと誤った答えの両方が存在する可能性がある。 一方、エッジ内の不確実性を無視している(例えば、正しい答えは真の熟達または幸運な推測を示すことができる)。 この制限に対処するため,適応意味グラフに基づく認知診断モデル (ASG-CD) を提案する。 具体的には、まず学生、運動、知識の概念を潜在表現空間にマッピングし、これらの潜在表現を組み合わせることで、学生の能力と運動困難度を得る。 その後、エッジの不均一性に対処するセマンティック対応グラフニューラルネットワーク層を提案する。 この層は、元の二部グラフをエッジセマンティクスに従って2つのサブグラフに分割し、これらの2つのサブグラフに基づいて情報を個別に集約する。 エッジの不確かさの影響を軽減するために、動的にエッジを識別する適応エッジ微分層を提案し、次いで信頼性のあるエッジを保持し、不確実なエッジをフィルタリングする。 実世界の3つのデータセットに対する大規模な実験は、ASG-CDの有効性を実証した。

Cognitive Diagnosis (CD) algorithms receive growing research interest in intelligent education. Typically, these CD algorithms assist students by inferring their abilities (i.e., their proficiency levels on various knowledge concepts). The proficiency levels can enable further targeted skill training and personalized exercise recommendations, thereby promoting students' learning efficiency in online education. Recently, researchers have found that building and incorporating a student-exercise bipartite graph is beneficial for enhancing diagnostic performance. However, there are still limitations in their studies. On one hand, researchers overlook the heterogeneity within edges, where there can be both correct and incorrect answers. On the other hand, they disregard the uncertainty within edges, e.g., a correct answer can indicate true mastery or fortunate guessing. To address the limitations, we propose Adaptive Semantic-aware Graph-based Cognitive Diagnosis model (ASG-CD), which introduces a novel and effective way to leverage bipartite graph information in CD. Specifically, we first map students, exercises, and knowledge concepts into a latent representation space and combine these latent representations to obtain student abilities and exercise difficulties. After that, we propose a Semantic-aware Graph Neural Network Layer to address edge heterogeneity. This layer splits the original bipartite graph into two subgraphs according to edge semantics, and aggregates information based on these two subgraphs separately. To mitigate the impact of edge uncertainties, we propose an Adaptive Edge Differentiation Layer that dynamically differentiates edges, followed by keeping reliable edges and filtering out uncertain edges. Extensive experiments on three real-world datasets have demonstrated the effectiveness of ASG-CD.
翻訳日:2024-03-25 08:36:53 公開日:2024-02-15
# 知識誘導型脳波表現学習

Knowledge-guided EEG Representation Learning ( http://arxiv.org/abs/2403.03222v1 )

ライセンス: Link先を確認
Aditya Kommineni, Kleanthis Avramidis, Richard Leahy, Shrikanth Narayanan(参考訳) 自己教師付き学習は、オーディオ、視覚、音声のマルチメディア領域において印象的な結果を生み出している。 このパラダイムは、そのようなシナリオにおけるラベル付きデータの不足のため、バイオシグナリングの領域に等しく関係しています。 大規模な非ラベルデータを利用して堅牢な表現を学ぶ能力は、生体信号に対する多数の推論タスクのパフォーマンスを向上させるのに役立つ。 マルチメディアモダリティと生体信号の固有のドメイン差を考えると、自己教師型学習の確立された目的はこの領域にうまく翻訳されないかもしれない。 したがって、これらの手法を生体信号解析に適応させる必要がなくなる。 本研究では、状態空間に基づくディープラーニングアーキテクチャを用いて、堅牢な性能と顕著なパラメータ効率を提供するEEGの自己教師型モデルを提案する。 また,脳波信号の特異性を考慮した新しい知識誘導前学習目標を提案する。 その結果, 従来の模範課題と比較すると, 組込み表現学習と下流性能が向上した。 また,提案手法は,先行作業と同等の性能を得るために必要な事前学習データの量を大幅に削減する。

Self-supervised learning has produced impressive results in multimedia domains of audio, vision and speech. This paradigm is equally, if not more, relevant for the domain of biosignals, owing to the scarcity of labelled data in such scenarios. The ability to leverage large-scale unlabelled data to learn robust representations could help improve the performance of numerous inference tasks on biosignals. Given the inherent domain differences between multimedia modalities and biosignals, the established objectives for self-supervised learning may not translate well to this domain. Hence, there is an unmet need to adapt these methods to biosignal analysis. In this work we propose a self-supervised model for EEG, which provides robust performance and remarkable parameter efficiency by using state space-based deep learning architecture. We also propose a novel knowledge-guided pre-training objective that accounts for the idiosyncrasies of the EEG signal. The results indicate improved embedding representation learning and downstream performance compared to prior works on exemplary tasks. Also, the proposed objective significantly reduces the amount of pre-training data required to obtain performance equivalent to prior works.
翻訳日:2024-03-10 23:52:13 公開日:2024-02-15
# HKD-SHO:知識ベースとデータ駆動サービスに基づくハイブリッドスマートホームシステム

HKD-SHO: A hybrid smart home system based on knowledge-based and data-driven services ( http://arxiv.org/abs/2402.15521v1 )

ライセンス: Link先を確認
Mingming Qiu, Elie Najm, R\'emi Sharrock, Bruno Traverson(参考訳) スマートホームは様々なサービスをセットアップすることで実現される。 スマートホームサービスを作成するためのいくつかの方法が提案されており、知識ベースとデータ駆動のアプローチに分けられる。 しかし、知識に基づくアプローチでは、通常、居住者からの手動入力が必要であり、関連する環境状態の物理的現象が複雑であれば複雑であり、居住者はサービスによって監視される状態の目標値を達成するために関連するアクチュエータの調整方法を知らない。 さらに、私たちが関心を持つ機械学習ベースのデータ駆動アプローチは、ブラックボックスのようなもので、特定のサービスが特定のアクチュエータの状態を提案した状況を示すことができない。 これらの問題を解決するために,HKD-SHO(Hybrid Knowledge-based and Data-driven services based Smart HOme system)と呼ばれるハイブリッドシステムを提案する。 主な利点は、知識ベースのサービスの拡張性とデータ駆動サービスのダイナミズムを継承できることである。 我々は,HKD-SHOと動的スマートホームサービス構築システムを比較し,HKD-SHOの性能向上を示す。

A smart home is realized by setting up various services. Several methods have been proposed to create smart home services, which can be divided into knowledge-based and data-driven approaches. However, knowledge-based approaches usually require manual input from the inhabitant, which can be complicated if the physical phenomena of the concerned environment states are complex, and the inhabitant does not know how to adjust related actuators to achieve the target values of the states monitored by services. Moreover, machine learning-based data-driven approaches that we are interested in are like black boxes and cannot show the inhabitant in which situations certain services proposed certain actuators' states. To solve these problems, we propose a hybrid system called HKD-SHO (Hybrid Knowledge-based and Data-driven services based Smart HOme system), where knowledge-based and machine learning-based data-driven services are profitably integrated. The principal advantage is that it inherits the explicability of knowledge-based services and the dynamism of data-driven services. We compare HKD-SHO with several systems for creating dynamic smart home services, and the results show the better performance of HKD-SHO.
翻訳日:2024-03-03 19:17:06 公開日:2024-02-15
# ModZoo: モッドAndroidアプリとその市場に関する大規模調査

ModZoo: A Large-Scale Study of Modded Android Apps and their Markets ( http://arxiv.org/abs/2402.19180v1 )

ライセンス: Link先を確認
Luis A. Saavedra (1), Hridoy S. Dutta (1), Alastair R. Beresford (1), Alice Hutchings (1) ((1) University of Cambridge)(参考訳) 我々は、androidマーケットにおける修正または修正されたアプリ(サードパーティによって機能と機能が変更されているアプリ)に関する最初の大規模調査の結果を示す。 我々は、最も人気のあるmoddedアプリ市場13社から得られた146万以上のアプリを分析した。 収集したアプリの約90%は、Google Playの公式アプリと比べて何らかの方法で変更されている。 修正には、無限のコインや生活などのゲーム不正、無料のプレミアム機能を備えたメインストリームアプリ、広告識別子の変更や広告の除外などが含まれる。 アプリの有料提供(全市場のアプリの約5%)、公式アプリへの支払いを必要とするプレミアム機能の無償提供、広告識別子の変更などです。 一部のmoddedアプリには、すべてのトラッカーと広告が削除されている(3%)が、一般的には、これらのアプリのインストールは、公式バージョンよりもユーザーにとってはるかにリスクが高い。

We present the results of the first large-scale study into Android markets that offer modified or modded apps: apps whose features and functionality have been altered by a third-party. We analyse over 146k (thousand) apps obtained from 13 of the most popular modded app markets. Around 90% of apps we collect are altered in some way when compared to the official counterparts on Google Play. Modifications include games cheats, such as infinite coins or lives; mainstream apps with premium features provided for free; and apps with modified advertising identifiers or excluded ads. We find the original app developers lose significant potential revenue due to: the provision of paid for apps for free (around 5% of the apps across all markets); the free availability of premium features that require payment in the official app; and modified advertising identifiers. While some modded apps have all trackers and ads removed (3%), in general, the installation of these apps is significantly more risky for the user than the official version: modded apps are ten times more likely to be marked as malicious and often request additional permissions.
翻訳日:2024-03-03 19:12:04 公開日:2024-02-15
# アマチュア無線の信号分類とノイズ低減のための機械学習

Utilizing Machine Learning for Signal Classification and Noise Reduction in Amateur Radio ( http://arxiv.org/abs/2402.17771v1 )

ライセンス: Link先を確認
Jimi Sanchez(参考訳) アマチュア無線の分野では、信号の効果的な分類とノイズの緩和が信頼できる通信を確保する上で重要な役割を担っている。 従来の信号分類とノイズ低減の手法は、しばしば手動による介入と事前定義された閾値に依存しており、労働集約的であり、動的無線環境に適応できない。 本稿では,アマチュア無線における信号分類と雑音低減のための機械学習手法の適用について検討する。 本研究では,教師付き学習アルゴリズムと教師なし学習アルゴリズムを用いて,所望の信号と望ましくない干渉を自動的に区別し,受信した伝送に対するノイズの影響を低減し,その実現可能性と有効性について検討する。 実験結果は、アマチュア無線システムの効率と堅牢性を高めるための機械学習手法の可能性を示し、アマチュア無線コミュニティにおけるよりインテリジェントで適応的な無線ソリューションへの道を開いた。

In the realm of amateur radio, the effective classification of signals and the mitigation of noise play crucial roles in ensuring reliable communication. Traditional methods for signal classification and noise reduction often rely on manual intervention and predefined thresholds, which can be labor-intensive and less adaptable to dynamic radio environments. In this paper, we explore the application of machine learning techniques for signal classification and noise reduction in amateur radio operations. We investigate the feasibility and effectiveness of employing supervised and unsupervised learning algorithms to automatically differentiate between desired signals and unwanted interference, as well as to reduce the impact of noise on received transmissions. Experimental results demonstrate the potential of machine learning approaches to enhance the efficiency and robustness of amateur radio communication systems, paving the way for more intelligent and adaptive radio solutions in the amateur radio community.
翻訳日:2024-03-03 19:07:54 公開日:2024-02-15
# CHEMREASONER:量子化学フィードバックを用いた大規模言語モデルの知識空間のヒューリスティック検索

CHEMREASONER: Heuristic Search over a Large Language Model's Knowledge Space using Quantum-Chemical Feedback ( http://arxiv.org/abs/2402.10980v1 )

ライセンス: Link先を確認
Henry W. Sprueill, Carl Edwards, Khushbu Agarwal, Mariefel V. Olarte, Udishnu Sanyal, Conrad Johnston, Hongbin Liu, Heng Ji, Sutanay Choudhury(参考訳) 新しい触媒の発見は、持続可能な未来へ移行するために、新しいより効率的な化学プロセスの設計に不可欠である。 量子化学に基づく3次元原子論表現からのフィードバックで言語推論を統一するAI誘導型計算スクリーニングフレームワークを提案する。 提案手法は,大規模言語モデル(LLM)と原子間グラフニューラルネットワーク(GNN)によるフィードバックの反復的組み合わせにより,エージェントが高い有効触媒を積極的に探索する不確実な環境として触媒発見を定式化する。 中間探索段階における同定触媒は, 空間配向, 反応経路, 安定性に基づいて構造評価を行う。 吸着エネルギーとバリアに基づくスコーリング機能は、LLMの知識空間におけるエネルギー的に好ましい高効率触媒への探索を後押しする。 本研究では,人間の入力を使わずに探索を自動的に案内する計画手法を導入する。 言語誘導推論と計算化学フィードバックを統合することで、私たちの研究はAIが加速し、信頼できる触媒発見を開拓しました。

The discovery of new catalysts is essential for the design of new and more efficient chemical processes in order to transition to a sustainable future. We introduce an AI-guided computational screening framework unifying linguistic reasoning with quantum-chemistry based feedback from 3D atomistic representations. Our approach formulates catalyst discovery as an uncertain environment where an agent actively searches for highly effective catalysts via the iterative combination of large language model (LLM)-derived hypotheses and atomistic graph neural network (GNN)-derived feedback. Identified catalysts in intermediate search steps undergo structural evaluation based on spatial orientation, reaction pathways, and stability. Scoring functions based on adsorption energies and barriers steer the exploration in the LLM's knowledge space toward energetically favorable, high-efficiency catalysts. We introduce planning methods that automatically guide the exploration without human input, providing competitive performance against expert-enumerated chemical descriptor-based implementations. By integrating language-guided reasoning with computational chemistry feedback, our work pioneers AI-accelerated, trustworthy catalyst discovery.
翻訳日:2024-02-21 00:30:01 公開日:2024-02-15
# 複数の季節的ホルトウィンターに基づく短期電力需要予測ライブラリmshw

mshw, a forecasting library to predict short-term electricity demand based on multiple seasonal Holt-Winters ( http://arxiv.org/abs/2402.10982v1 )

ライセンス: Link先を確認
Oscar Trull, and J. Carlos Garc\'ia-D\'iaz, and Angel Peir\'o-Signes(参考訳) 送電系統の事業者は、より正確な電力需要予測の必要性が高まっている。 現在の電力システムは、電力市場が電力価格と生産ユニットのプログラミングを確立するために需要予測を必要とする。 電気システムの一部である企業は、統計や人工知能に関わらず、時系列や予測ツールの使用に基づいて、排他的ソフトウェアを使用して予測を得る。 しかしながら、最も一般的な予測形式は、両方の技術を使用するハイブリッドモデルに基づいている。 いずれにしても、多くの関連する変数を持つ複雑な構造を持つソフトウェアであり、予測を行うには高い計算負荷を必要とする。 彼らが提供できる予測は、単純なモデルが提供できる予測よりもそれほど良くない。 本稿では,電気需要予測のためのMATLABツールボックスを提案する。 このツールボックスは、複数の季節的なHolt-Winters指数スムージングモデルとニューラルネットワークモデルを実装している。 モデルは、特別日の予報を改善するために離散区間移動季節性(dims)を使用することを含む。 さらに、ヨーロッパの様々な電気システムにおけるその応用結果を示し、その結果を見ることができる。 このライブラリの使用は、他の分野における離散的および複雑な季節性を持つモデルの使用のための新しい研究の道を開く。

Transmission system operators have a growing need for more accurate forecasting of electricity demand. Current electricity systems largely require demand forecasting so that the electricity market establishes electricity prices as well as the programming of production units. The companies that are part of the electrical system use exclusive software to obtain predictions, based on the use of time series and prediction tools, whether statistical or artificial intelligence. However, the most common form of prediction is based on hybrid models that use both technologies. In any case, it is software with a complicated structure, with a large number of associated variables and that requires a high computational load to make predictions. The predictions they can offer are not much better than those that simple models can offer. In this paper we present a MATLAB toolbox created for the prediction of electrical demand. The toolbox implements multiple seasonal Holt-Winters exponential smoothing models and neural network models. The models used include the use of discrete interval mobile seasonalities (DIMS) to improve forecasting on special days. Additionally, the results of its application in various electrical systems in Europe are shown, where the results obtained can be seen. The use of this library opens a new avenue of research for the use of models with discrete and complex seasonalities in other fields of application.
翻訳日:2024-02-21 00:16:33 公開日:2024-02-15
# ReRAMニューロモルフィック回路アレイにおけるスタックアット欠陥とその機械学習による補正

Stuck-at Faults in ReRAM Neuromorphic Circuit Array and their Correction through Machine Learning ( http://arxiv.org/abs/2402.10981v1 )

ライセンス: Link先を確認
Vedant Sawal and Hiu Yung Wong(参考訳) 本稿では,Resistive Random Access Memory (ReRAM) ニューロモルフィック回路(Stuck-on,Stuck-off,Stuck-off,Stuck-off,Stock-off)の故障による推定精度について検討する。 Pythonを用いたシミュレーションフレームワークは、手書き桁の教師付き機械学習(3層、入力層1層、出力層1層)を実行し、Spectreでシミュレートされた対応する完全にアナログなニューロモルフィック回路(4つのシナプスアレイ)を構築する。 45nmプロセス開発キット(PDK)が使用された。 スタッキオン欠陥とスタッキオフ欠陥による推定精度の低下について検討した。 円, リング, 行, 列, 円補完欠陥など, 様々な欠陥パターンが研究されている。 その結果, 付着欠陥および付着欠陥は推定精度に類似していることがわかった。 しかし, 柱間に空間的欠陥変動がある場合, 推定精度は著しく低下する可能性が示唆された。 また,停止故障による推論精度の劣化を回復するための機械学習(ML)戦略を提案する。 障害性ニューロモルフィック回路では、推論精度が48%から85%に向上する。

In this paper, we study the inference accuracy of the Resistive Random Access Memory (ReRAM) neuromorphic circuit due to stuck-at faults (stuck-on, stuck-off, and stuck at a certain resistive value). A simulation framework using Python is used to perform supervised machine learning (neural network with 3 hidden layers, 1 input layer, and 1 output layer) of handwritten digits and construct a corresponding fully analog neuromorphic circuit (4 synaptic arrays) simulated by Spectre. A generic 45nm Process Development Kit (PDK) was used. We study the difference in the inference accuracy degradation due to stuck-on and stuck-off defects. Various defect patterns are studied including circular, ring, row, column, and circular-complement defects. It is found that stuck-on and stuck-off defects have a similar effect on inference accuracy. However, it is also found that if there is a spatial defect variation across the columns, the inference accuracy may be degraded significantly. We also propose a machine learning (ML) strategy to recover the inference accuracy degradation due to stuck-at faults. The inference accuracy is improved from 48% to 85% in a defective neuromorphic circuit.
翻訳日:2024-02-21 00:16:19 公開日:2024-02-15
# スポーツメトリクス:LLMにおける情報融合を理解するためのテキストと数値データ

SportsMetrics: Blending Text and Numerical Data to Understand Information Fusion in LLMs ( http://arxiv.org/abs/2402.10979v1 )

ライセンス: Link先を確認
Yebowen Hu, Kaiqiang Song, Sangwoo Cho, Xiaoyang Wang, Hassan Foroosh, Dong Yu, Fei Liu(参考訳) 大規模言語モデルは、高度な分析のためにテキスト文書やデータベースレコードなどの様々なデータ型を統合する大きな可能性を秘めている。 しかし,テキストと数値データの混在は重大な課題である。 LLMは、エンティティや数値を処理し、データ不整合や冗長性を処理し、複雑なデータクエリを管理するためのワーキングメモリを構築するような計画機能を開発する必要がある。 本稿では,スポーツデータ分析を中心とした4つの新しいタスクを紹介し,llmの数値推論と情報融合能力を評価する。 これらのタスクには、LEMに詳細なプレイバイプレイのスポーツゲーム記述を提供し、新しいゲームルール、長い期間、スクランブルされた物語、ゲーム要約における重要な統計分析などの敵シナリオに挑戦する。 NBAおよびNFLゲームにおいて、これらのタスクにおけるLLMの性能を評価するための広範な実験を行う。 我々のベンチマークであるSportsMetricsでは、LSMの数値推論と融合技術を評価するための新しいメカニズムを導入している。

Large language models hold significant potential for integrating various data types, such as text documents and database records, for advanced analytics. However, blending text and numerical data presents substantial challenges. LLMs need to process and cross-reference entities and numbers, handle data inconsistencies and redundancies, and develop planning capabilities such as building a working memory for managing complex data queries. In this paper, we introduce four novel tasks centered around sports data analytics to evaluate the numerical reasoning and information fusion capabilities of LLMs. These tasks involve providing LLMs with detailed, play-by-play sports game descriptions, then challenging them with adversarial scenarios such as new game rules, longer durations, scrambled narratives, and analyzing key statistics in game summaries. We conduct extensive experiments on NBA and NFL games to assess the performance of LLMs on these tasks. Our benchmark, SportsMetrics, introduces a new mechanism for assessing LLMs' numerical reasoning and fusion skills.
翻訳日:2024-02-21 00:15:58 公開日:2024-02-15
# 共形事実性保証付き言語モデル

Language Models with Conformal Factuality Guarantees ( http://arxiv.org/abs/2402.10978v1 )

ライセンス: Link先を確認
Christopher Mohri, Tatsunori Hashimoto(参考訳) 言語モデル(LM)出力の正確性と事実性を保証することは、大きなオープンな問題である。 本研究では,言語モデルと共形予測を接続することにより,LMの確率的正確性を保証するフレームワークである共形事実性を提案する。 lm出力の正しさは不確実性定量化問題と同値であり、不確実性集合はlm出力の補集合として定義される。 この接続を用いて、言語モデルにおける共形予測は、LM出力を徐々に具体化(および関連する不確実性集合の拡大)し、高い確率正当性を保証するバックオフアルゴリズムに対応することを示す。 このアプローチは任意のブラックボックスlmに適用でき、人間の注釈付きサンプルをほとんど必要としない。 閉書QA(FActScore, NaturalQuestions)と推論タスク(MATH)に対する我々のアプローチの評価は、LMの原出力の大部分を維持しつつ、80~90%の正確性を保証することができることを示している。

Guaranteeing the correctness and factuality of language model (LM) outputs is a major open problem. In this work, we propose conformal factuality, a framework that can ensure high probability correctness guarantees for LMs by connecting language modeling and conformal prediction. We observe that the correctness of an LM output is equivalent to an uncertainty quantification problem, where the uncertainty sets are defined as the entailment set of an LM's output. Using this connection, we show that conformal prediction in language models corresponds to a back-off algorithm that provides high probability correctness guarantees by progressively making LM outputs less specific (and expanding the associated uncertainty sets). This approach applies to any black-box LM and requires very few human-annotated samples. Evaluations of our approach on closed book QA (FActScore, NaturalQuestions) and reasoning tasks (MATH) show that our approach can provide 80-90% correctness guarantees while retaining the majority of the LM's original output.
翻訳日:2024-02-21 00:15:40 公開日:2024-02-15
# 生成AIとプロセスシステムエンジニアリング - 次のフロンティア

Generative AI and Process Systems Engineering: The Next Frontier ( http://arxiv.org/abs/2402.10977v1 )

ライセンス: Link先を確認
Benjamin Decardi-Nelson, Abdulelah S. Alshehri, Akshay Ajagekar, Fengqi You(参考訳) 本稿では,大規模言語モデル (LLM) のような新たな生成人工知能(GenAI)モデルが,プロセスシステム工学 (PSE) におけるソリューション方法論をいかに拡張するかを考察する。 これらの最先端のジェナイモデル、特に基盤モデル(fms)は、広範囲で汎用的なデータセットで事前学習されており、クエリや画像生成、複雑な意思決定など、幅広いタスクに多彩な適応性を提供します。 PSEの進歩とコンピューティングとシステム技術の発展の密接な関係を考えると、GenAIとPSEのシナジーを探求することが不可欠である。 fmsを含む旧来のgenaiモデルと新興のgenaiモデルの両方のコンパクトな概要から議論を始め、合成と設計、最適化と統合、プロセスの監視と制御といった主要なpseドメインのアプリケーションに飛び込みます。 それぞれの領域において、GenAIモデルがPSE方法論を前進させ、各領域の洞察と展望を提供する方法について検討する。 さらに、マルチスケールモデリング、データ要件、評価指標とベンチマーク、信頼と安全性など、PSE内でGenAIを完全に活用する上での潜在的な課題を特定し、議論することで、システム分析、設計、最適化、運用、監視、制御への効果的なGenAI統合に関する議論を深める。 本稿では,PSEにおける新たなGenAIの応用に焦点を当てた今後の研究のガイドを提供する。

This article explores how emerging generative artificial intelligence (GenAI) models, such as large language models (LLMs), can enhance solution methodologies within process systems engineering (PSE). These cutting-edge GenAI models, particularly foundation models (FMs), which are pre-trained on extensive, general-purpose datasets, offer versatile adaptability for a broad range of tasks, including responding to queries, image generation, and complex decision-making. Given the close relationship between advancements in PSE and developments in computing and systems technologies, exploring the synergy between GenAI and PSE is essential. We begin our discussion with a compact overview of both classic and emerging GenAI models, including FMs, and then dive into their applications within key PSE domains: synthesis and design, optimization and integration, and process monitoring and control. In each domain, we explore how GenAI models could potentially advance PSE methodologies, providing insights and prospects for each area. Furthermore, the article identifies and discusses potential challenges in fully leveraging GenAI within PSE, including multiscale modeling, data requirements, evaluation metrics and benchmarks, and trust and safety, thereby deepening the discourse on effective GenAI integration into systems analysis, design, optimization, operations, monitoring, and control. This paper provides a guide for future research focused on the applications of emerging GenAI in PSE.
翻訳日:2024-02-21 00:15:23 公開日:2024-02-15
# ネットワーク侵入検出のための機械学習のクロスデータセット一般化について

On the Cross-Dataset Generalization of Machine Learning for Network Intrusion Detection ( http://arxiv.org/abs/2402.10974v1 )

ライセンス: Link先を確認
Marco Cantone, Claudio Marrocco, Alessandro Bria(参考訳) ネットワーク侵入検知システム(NIDS)はサイバーセキュリティの基本的なツールである。 多様なネットワークにまたがる一般化能力は、その有効性と現実のアプリケーションにとって必須の要素である。 本研究では,クロスデータセットフレームワークにおける広範囲な実験を通じて,機械学習に基づくnidsの一般化に関する包括的分析を行う。 cic-ids-2017, cse-cic-ids2018, lycos-ids2017, lycos-unicas-ids2018の4つのデータセットを使用している。 特に、最後のデータセットは、LycoS-IDS2017に基づく修正を、よく知られたCSE-CIC-IDS2018データセットに適用する、新しいコントリビューションである。 その結果、モデルがトレーニングされ、同じデータセット上でテストされた場合、ほぼ完全な分類性能を示す。 しかし、データセット間のモデルのトレーニングとテストでは、いくつかの攻撃とデータセットの組み合わせを除いて、分類精度はランダムな確率とほぼ一致している。 私たちはデータのパターンに関する貴重な洞察を提供するために、データ可視化技術を使用します。 分析では,学習した知識を新たなシナリオに一般化する分類器の能力を直接阻害するデータに異常が存在することを明らかにした。 本研究では,機械学習に基づくnidsの一般化能力の理解を深め,データの多様性を認めることの重要性を強調する。

Network Intrusion Detection Systems (NIDS) are a fundamental tool in cybersecurity. Their ability to generalize across diverse networks is a critical factor in their effectiveness and a prerequisite for real-world applications. In this study, we conduct a comprehensive analysis on the generalization of machine-learning-based NIDS through an extensive experimentation in a cross-dataset framework. We employ four machine learning classifiers and utilize four datasets acquired from different networks: CIC-IDS-2017, CSE-CIC-IDS2018, LycoS-IDS2017, and LycoS-Unicas-IDS2018. Notably, the last dataset is a novel contribution, where we apply corrections based on LycoS-IDS2017 to the well-known CSE-CIC-IDS2018 dataset. The results show nearly perfect classification performance when the models are trained and tested on the same dataset. However, when training and testing the models in a cross-dataset fashion, the classification accuracy is largely commensurate with random chance except for a few combinations of attacks and datasets. We employ data visualization techniques in order to provide valuable insights on the patterns in the data. Our analysis unveils the presence of anomalies in the data that directly hinder the classifiers capability to generalize the learned knowledge to new scenarios. This study enhances our comprehension of the generalization capabilities of machine-learning-based NIDS, highlighting the significance of acknowledging data heterogeneity.
翻訳日:2024-02-21 00:14:58 公開日:2024-02-15
# 慢性疾患における症状事象の正確かつ迅速な予測のためのモデリング手法

Modeling methodology for the accurate and prompt prediction of symptomatic events in chronic diseases ( http://arxiv.org/abs/2402.10972v1 )

ライセンス: Link先を確認
Josu\'e Pag\'an, Jos\'e L. Risco-Mart\'in, Jos\'e M. Moya and Jos\'e L. Ayala(参考訳) 慢性疾患における症状発生の予測は、症状を避けるための薬物の摂取や医療警報の活性化など、症状が起こる前に決定することができる。 この場合の予測地平線は、医薬品の薬物動態や医療サービスの時間応答を満たすための重要なパラメータである。 本稿では,慢性疾患における症状性障害の予測限界である片頭痛について検討する。 この目的のために、この研究は予測的な片頭痛モデルを構築し、初期モデルの限界を超えてこれらの予測を改善する手法を開発する。 最大予測地平線を解析し、選択した特徴への依存について検討する。 モデル選択のための戦略は、高い地平線を持つ精度の低い予測に対して、保守的だが堅牢な予測モデル間のトレードオフに取り組むために提案される。 得られた結果は,薬物動態の時間範囲である40分付近の予測地平線を示した。 非侵入性無線体センサネットワークの展開により, 臨床実験において入力データが取得された現実的なシナリオで実験が実施されている。 本研究は,症状を呈する疾患の予測アルゴリズムの開発において,今後の地平線の選択に有効な手法を提供する。

Prediction of symptomatic crises in chronic diseases allows to take decisions before the symptoms occur, such as the intake of drugs to avoid the symptoms or the activation of medical alarms. The prediction horizon is in this case an important parameter in order to fulfill the pharmacokinetics of medications, or the time response of medical services. This paper presents a study about the prediction limits of a chronic disease with symptomatic crises: the migraine. For that purpose, this work develops a methodology to build predictive migraine models and to improve these predictions beyond the limits of the initial models. The maximum prediction horizon is analyzed, and its dependency on the selected features is studied. A strategy for model selection is proposed to tackle the trade off between conservative but robust predictive models, with respect to less accurate predictions with higher horizons. The obtained results show a prediction horizon close to 40 minutes, which is in the time range of the drug pharmacokinetics. Experiments have been performed in a realistic scenario where input data have been acquired in an ambulatory clinical study by the deployment of a non-intrusive Wireless Body Sensor Network. Our results provide an effective methodology for the selection of the future horizon in the development of prediction algorithms for diseases experiencing symptomatic crises.
翻訳日:2024-02-21 00:14:32 公開日:2024-02-15
# 垂直ネットワークにおける非直交年齢最適情報拡散:メタ多目的強化学習アプローチ

Non-orthogonal Age-Optimal Information Dissemination in Vehicular Networks: A Meta Multi-Objective Reinforcement Learning Approach ( http://arxiv.org/abs/2402.12260v1 )

ライセンス: Link先を確認
A. A. Habob, H. Tabassum, O. Waqar(参考訳) 本稿では,道路側ユニット(RSU)が車両への物理プロセスのタイムリーな更新を行う車載ネットワークにおいて,情報化時期(AoI)の最小化と消費電力の伝達について考察する。 rsuからの重畳メッセージ送信と車両における連続干渉キャンセル(sic)に基づく非直交多モード情報伝達について考察する。 定式化問題は多目的混合整数非線形計画問題であり、パレート最適面を得るのは非常に困難である。 まず,重み付き重み付き重み付き重み付きアプローチを用いて,多目的問題に対して,事前定義された目標選好重みに対応する複数の単目的部分問題の集合を分解する。 そこで我々は,各最適化サブプロブレムをあらかじめ定義された目的条件重みに応じて解くために,DQN-Deep Deterministic Policy gradient (DDPG)モデルを構築した。 DQNは復号順序を最適化し、DDPGは連続的な電力割り当てを解決する。 モデルはサブプロブレムごとに再訓練する必要がある。 次に,2段階のメタマルチオブジェクト強化学習ソリューションを提案し,各サブプロブレムのモデルを再学習することなく,いくつかの微調整された更新ステップでParetoフロントを推定する。 シミュレーションの結果,提案手法の有効性を既存ベンチマークと比較し,メタ多目的強化学習モデルでは,トレーニング時間を短縮した高品質なパレートフロンティアを推定した。

This paper considers minimizing the age-of-information (AoI) and transmit power consumption in a vehicular network, where a roadside unit (RSU) provides timely updates about a set of physical processes to vehicles. We consider non-orthogonal multi-modal information dissemination, which is based on superposed message transmission from RSU and successive interference cancellation (SIC) at vehicles. The formulated problem is a multi-objective mixed-integer nonlinear programming problem; thus, a Pareto-optimal front is very challenging to obtain. First, we leverage the weighted-sum approach to decompose the multi-objective problem into a set of multiple single-objective sub-problems corresponding to each predefined objective preference weight. Then, we develop a hybrid deep Q-network (DQN)-deep deterministic policy gradient (DDPG) model to solve each optimization sub-problem respective to predefined objective-preference weight. The DQN optimizes the decoding order, while the DDPG solves the continuous power allocation. The model needs to be retrained for each sub-problem. We then present a two-stage meta-multi-objective reinforcement learning solution to estimate the Pareto front with a few fine-tuning update steps without retraining the model for each sub-problem. Simulation results illustrate the efficacy of the proposed solutions compared to the existing benchmarks and that the meta-multi-objective reinforcement learning model estimates a high-quality Pareto frontier with reduced training time.
翻訳日:2024-02-20 15:33:07 公開日:2024-02-15
# 確率的量子軌道は開スピン1/2、スピン1、スピン3/2系における量子ゼノ効果を示す

Stochastic quantum trajectories demonstrate the Quantum Zeno Effect in open spin 1/2, spin 1 and spin 3/2 systems ( http://arxiv.org/abs/2209.10626v2 )

ライセンス: Link先を確認
Sophia M. Walls, Julien M. Schachter, Haocheng Qian and Ian J. Ford(参考訳) スピン1/2,スピン1およびスピン3/2における量子ゼノ効果を調べ,スピン1およびスピン3/2系の未検討の特徴を明らかにする。 システムは可観測体の連続的な測定を行うように設計された環境と相互作用し、対応する作用素の固有状態の1つに確率的にシステムを駆動する。 システム環境結合定数は測定の強さを表す。 確率的量子軌道は、量子状態拡散形式(英語版)(quantum state diffusion formalism)を用いてマルコフのリンドブラッドマスター方程式を解いて生成される。 これらは、後者が測定の効果を隠蔽できるため、平均的な進化を考えるよりもシステム行動の適切な表現と見なされている。 完全な肯定性は維持され、従って軌道は物理的意味を持つと見なすことができる。 量子ゼノ効果は様々な測定強度で研究されている。 強度を増大させると、測定された観測可能な固有状態の近傍の系はより大きくなり、その固有状態に戻るのに要する時間も長くなり、量子ゼノ効果が現れる。 非常に強い測定のために、ラビ振動は固有状態間のランダムに瞬時に発生するジャンプに似ている。 量子系に追従する軌道は、ラビ振動の減速やノイズの追加以外の測定強度に大きく依存しており、スピン相空間における経路は、円偏差から8の精巧な図形へと変化する。 スピン1とスピン3/2系の場合、測定強度はどの固有状態が探索されるかを決定し、量子ゼノ効果は系が他の固有状態の近傍に居住する場合に強くなる。

We investigate the Quantum Zeno Effect in spin 1/2, spin 1 and spin 3/2 open quantum systems undergoing Rabi oscillations, revealing unexplored features for the spin 1 and spin 3/2 systems. The systems interact with an environment designed to perform continuous measurements of an observable, driving the systems stochastically towards one of the eigenstates of the corresponding operator. The system-environment coupling constant represents the strength of the measurement. Stochastic quantum trajectories are generated by unravelling a Markovian Lindblad master equation using the quantum state diffusion formalism. These are regarded as a more appropriate representation of system behaviour than consideration of the averaged evolution since the latter can mask the effect of measurement. Complete positivity is maintained and thus the trajectories can be considered as physically meaningful. The Quantum Zeno Effect is investigated over a range of measurement strengths. Increasing the strength leads to greater system dwell in the vicinity of the eigenstates of the measured observable and lengthens the time taken by the system to return to that eigenstate,thus the Quantum Zeno Effect emerges. For very strong measurement, the Rabi oscillations resemble randomly occurring near-instantaneous jumps between eigenstates. The trajectories followed by the quantum system are heavily dependent on the measurement strength which other than slowing down and adding noise to the Rabi oscillations, changes the paths taken in spin phase space from a circular precession into elaborate figures-of-eight. For spin 1 and spin 3/2 systems, the measurement strength determines which eigenstates are explored and the Quantum Zeno Effect is stronger when the system dwells in the vicinity of certain eigenstates compared to others.
翻訳日:2024-02-19 21:34:00 公開日:2024-02-15
# 出発するバンディットを持つレコメンダシステムにおけるアトリビューションのモデル化

Modeling Attrition in Recommender Systems with Departing Bandits ( http://arxiv.org/abs/2203.13423v2 )

ライセンス: Link先を確認
Omer Ben-Porat, Lee Cohen, Liu Leqi, Zachary C. Lipton, Yishay Mansour(参考訳) 伝統的に、レコメンダシステムがマルチアームのバンディットとして形式化された場合、レコメンダシステムのポリシーは報酬に影響を与えるが、インタラクションの長さには影響しない。 しかし、現実世界のシステムでは、不満を抱いたユーザーは立ち去る(二度と戻らない)。 本稿では,このような政策依存の地平線を捉えた,新しいマルチアームバンディット設定を提案する。 私たちのセットアップは、ユーザタイプの有限セットと、Bernoulliのペイオフを備えた複数のアームで構成されています。 各タプル(ユーザータイプ、アーム)は(未知の)報酬確率に対応する。 各ユーザのタイプは最初は不明で、レコメンデーションへの応答を通じてのみ推測できる。 さらに、ユーザの推奨に不満がある場合は、システムを離れる可能性がある。 まず、全てのユーザが同じタイプを共有し、最近の UCB ベースのアルゴリズムが最適であることを示す。 次に、ユーザが2つのタイプに分けられる、より困難なケースに進みます。 ナイーブなアプローチでは、この設定を処理できないが、$T$がユーザ数である場合に、$\tilde{O}(\sqrt{T})$ regretを達成する効率的な学習アルゴリズムを提供する。

Traditionally, when recommender systems are formalized as multi-armed bandits, the policy of the recommender system influences the rewards accrued, but not the length of interaction. However, in real-world systems, dissatisfied users may depart (and never come back). In this work, we propose a novel multi-armed bandit setup that captures such policy-dependent horizons. Our setup consists of a finite set of user types, and multiple arms with Bernoulli payoffs. Each (user type, arm) tuple corresponds to an (unknown) reward probability. Each user's type is initially unknown and can only be inferred through their response to recommendations. Moreover, if a user is dissatisfied with their recommendation, they might depart the system. We first address the case where all users share the same type, demonstrating that a recent UCB-based algorithm is optimal. We then move forward to the more challenging case, where users are divided among two types. While naive approaches cannot handle this setting, we provide an efficient learning algorithm that achieves $\tilde{O}(\sqrt{T})$ regret, where $T$ is the number of users.
翻訳日:2024-02-19 21:30:38 公開日:2024-02-15
# ディープフェイクコンテンツ検出のための深層学習に基づくアプローチのレビュー

A Review of Deep Learning-based Approaches for Deepfake Content Detection ( http://arxiv.org/abs/2202.06095v3 )

ライセンス: Link先を確認
Leandro A. Passos, Danilo Jodas, Kelton A. P. da Costa, Luis A. Souza J\'unior, Douglas Rodrigues, Javier Del Ser, David Camacho, Jo\~ao Paulo Papa(参考訳) ディープラーニング生成モデルの最近の進歩は、非常に説得力のある偽造画像やビデオを作成できるという懸念を提起している。 これは人々の完全性に脅威をもたらし、社会的不安定に繋がる可能性がある。 この問題に対処するためには、偽コンテンツを効率的に検出し、潜在的な画像やビデオ操作にユーザーに警告できる新しい計算モデルを開発する必要がある。 本稿では,ディープラーニングを用いたコンテンツ検出に関する最近の研究を概観する。 我々は,偽コンテンツ検出の異なるカテゴリを体系的にレビューすることにより,最先端の研究を広めることを目指している。 さらに,本研究のメリットと欠点を報告するとともに,深度検出に未解決の課題や欠点について,今後の方向性を定めている。

Recent advancements in deep learning generative models have raised concerns as they can create highly convincing counterfeit images and videos. This poses a threat to people's integrity and can lead to social instability. To address this issue, there is a pressing need to develop new computational models that can efficiently detect forged content and alert users to potential image and video manipulations. This paper presents a comprehensive review of recent studies for deepfake content detection using deep learning-based approaches. We aim to broaden the state-of-the-art research by systematically reviewing the different categories of fake content detection. Furthermore, we report the advantages and drawbacks of the examined works, and prescribe several future directions towards the issues and shortcomings still unsolved on deepfake detection.
翻訳日:2024-02-19 21:30:00 公開日:2024-02-15
# 効率的な収縮経路:最小mseリスクの最大可能性

The Efficient Shrinkage Path: Maximum Likelihood of Minimum MSE Risk ( http://arxiv.org/abs/2103.05161v5 )

ライセンス: Link先を確認
Robert L. Obenchain(参考訳) 正規分布理論の下での最適分散バイアストレードオフとなる回帰係数推定器のベクトルを通らなければならないという制限の下で可能な限り短い新しい一般化リッジ回帰収縮経路を提案する。 この効率的な経路のための5種類のリッジTRACEディスプレイと他のグラフィックがモチベーションされ、ここで説明されている。 これらの視覚化は、不適切なデータに線形モデルを適用する研究者やデータサイエンティストに、貴重なデータ分析の洞察を与え、自信を高める。

A new generalized ridge regression shrinkage path is proposed that is as short as possible under the restriction that it must pass through the vector of regression coefficient estimators that make the overall Optimal Variance-Bias Trade-Off under Normal distribution-theory. Five distinct types of ridge TRACE displays plus other graphics for this efficient path are motivated and illustrated here. These visualizations provide invaluable data-analytic insights and improved self-confidence to researchers and data scientists fitting linear models to ill-conditioned (confounded) data.
翻訳日:2024-02-19 21:29:33 公開日:2024-02-15
# 1次元ボース-フェルミ混合物におけるフォノン様相互作用の探索

Exploring phonon-like interactions in one-dimensional Bose-Fermi mixtures ( http://arxiv.org/abs/2303.07083v2 )

ライセンス: Link先を確認
Axel Gagge, Th. K. Mavrogordatos, and Jonas Larson(参考訳) 動的背景における電子の物理的挙動をシミュレートする目的で, ボソンにのみ影響する光学格子電位に閉じ込められた冷原子ボース-フェルミ混合物について検討した。 深い超流動状態にあるボゾンは、光学格子の周期性を継承し、次に偏極フェルミオンの動的ポテンシャルとして機能する。 フェルミオンと凝縮物の間の原子-フォノン相互作用により、結合系はルッティンガー液体からピエルス相へのベレジンスキー-コステリッツ-チューレス転移を示す。 しかし、十分に強いボース-フェルミ相互作用の下では、パイエルズ相は安定性を失い、崩壊または分離相となる。 光学格子の主要な機能はピエルス相の安定化である。 さらに、閉じ込められたハーモニックトラップの存在は、ボソンやフェルミオンで観察されるものを上回る、多様な物理的挙動を誘導する。 特に、魅力的なボース-フェルミ相互作用の下では、絶縁相はフェルミイオンのウェディングケーキのような配置を採用し、基礎となる格子ポテンシャルの動的性質を反映している。 逆に、反発的な相互作用のために、トラップはピールズ相を不安定化し、2つの種が分離する。

With the objective of simulating the physical behavior of electrons in a dynamic background, we investigate a cold atomic Bose-Fermi mixture confined in an optical lattice potential solely affecting the bosons. The bosons, residing in the deep superfluid regime, inherit the periodicity of the optical lattice, subsequently serving as a dynamic potential for the polarized fermions. Owing to the atom-phonon interaction between the fermions and the condensate, the coupled system exhibits a Berezinskii-Kosterlitz-Thouless transition from a Luttinger liquid to a Peierls phase. However, under sufficiently strong Bose-Fermi interaction, the Peierls phase loses stability, leading to either a collapsed or a separated phase. We find that the primary function of the optical lattice is to stabilize the Peierls phase. Furthermore, the presence of a confining harmonic trap induces a diverse physical behavior, surpassing what is observed for either bosons or fermions individually trapped. Notably, under attractive Bose-Fermi interaction, the insulating phase may adopt a fermionic wedding-cake-like configuration, reflecting the dynamic nature of the underlying lattice potential. Conversely, for repulsive interaction, the trap destabilizes the Peierls phase, causing the two species to separate.
翻訳日:2024-02-19 21:21:58 公開日:2024-02-15
# 最適拡張近隣ルール$k$Nearest Neighboursの集合

Optimal Extended Neighbourhood Rule $k$ Nearest Neighbours Ensemble ( http://arxiv.org/abs/2211.11278v2 )

ライセンス: Link先を確認
Amjad Ali, Zardad Khan, Dost Muhammad Khan, Saeed Aldahmani(参考訳) 従来のkに近い隣人(kNN)アプローチでは、球面領域内の距離公式を用いて、kに近いトレーニング観測を試験サンプル点まで決定する。 しかし、このアプローチは、テストポイントがこの領域の外にある場合、うまくいきません。 さらに,多くの基本kNN学習者を集約すると,高い分類誤差のためアンサンブル性能が低下する可能性がある。 本稿では,これらの問題に対処するため,拡張近傍ルールに基づくアンサンブル法を提案する。 この規則は、最も近いサンプル点から見えない観測点までのkステップの近傍を決定し、必要な観測数に達するまで最も近いデータ点を選択する。 各ベースモデルは、ランダムな特徴のサブセットを持つブートストラップサンプル上に構築され、十分な数のモデルを構築した後、バッグ外性能に基づいて最適なモデルを選択する。 提案手法は17のベンチマークデータセットの精度, cohen's kappa, brier score (bs) を用いた最新手法と比較した。 また,提案手法の性能を,元のデータに探索的特徴を加えて評価する。

The traditional k nearest neighbor (kNN) approach uses a distance formula within a spherical region to determine the k closest training observations to a test sample point. However, this approach may not work well when test point is located outside this region. Moreover, aggregating many base kNN learners can result in poor ensemble performance due to high classification errors. To address these issues, a new optimal extended neighborhood rule based ensemble method is proposed in this paper. This rule determines neighbors in k steps starting from the closest sample point to the unseen observation and selecting subsequent nearest data points until the required number of observations is reached. Each base model is constructed on a bootstrap sample with a random subset of features, and optimal models are selected based on out-of-bag performance after building a sufficient number of models. The proposed ensemble is compared with state-of-the-art methods on 17 benchmark datasets using accuracy, Cohen's kappa, and Brier score (BS). The performance of the proposed method is also assessed by adding contrived features in the original data.
翻訳日:2024-02-19 21:16:50 公開日:2024-02-15
# トレース多項式を用いた絡み検出

Entanglement detection with trace polynomials ( http://arxiv.org/abs/2303.07761v2 )

ライセンス: Link先を確認
Albert Rico and Felix Huber(参考訳) トレース多項式の不等式に基づく非線形絡み検出の系統的手法を提案する。 特に、二成分状態の検出には多成分目撃者を用いることができ、その逆も可能である。 絡み合った状態の線形検出が失敗するが、非線形検出が成功する目撃者を特定する。 トレース多項式の定式化では、無数の測定によって実験室で実装できる不等式から多くの目撃者が生まれる。

We provide a systematic method for nonlinear entanglement detection based on trace polynomial inequalities. In particular, this allows to employ multi-partite witnesses for the detection of bipartite states, and vice versa. We identify witnesses for which linear detection of an entangled state fails, but for which nonlinear detection succeeds. With the trace polynomial formulation a great variety of witnesses arise from immamant inequalities, which can be implemented in the laboratory through randomized measurements.
翻訳日:2024-02-19 21:04:58 公開日:2024-02-15
# 最大領域独立表現は転校学習を改善する

Maximal Domain Independent Representations Improve Transfer Learning ( http://arxiv.org/abs/2306.00262v2 )

ライセンス: Link先を確認
Adrian Shuai Li, Elisa Bertino, Xuan-Hong Dang, Ankush Singla, Yuhai Tu, Mark N Wegman(参考訳) アートドメイン適応の状態には、(1)ドメイン独立表現(DIRep)の作成と、(2)ドメイン依存表現(DDRep)が、その表現から入力がソースドメインかターゲットであるかを判断できないように訓練されたドメイン独立表現(DIRep)の作成が含まれる。 元の入力は、これらの2つの表現から再構築することができる。 分類器はDIRepを使用してソースイメージにのみ訓練される。 ソースにのみ有用な情報がDIRepに存在し、ドメイン適応の品質が低下することを示す。 この欠点に対処するため、DDRepが小さく、従ってほぼ全ての情報がDIRepで利用可能であることを保証します。 私たちは合成データセットを使って、隠れたデータ効果と呼ばれる特定の弱点を説明し、私たちのアプローチがどう対処するかを単純なコンテキストで示します。 さらに,一般的な画像データセットを用いた最先端アルゴリズムに対するアプローチの性能を示す。 また、事前訓練されたモデルとの互換性を強調し、実際のシナリオにおける適用性と汎用性を拡張します。

State of the art domain adaptation involves the creation of (1) a domain independent representation (DIRep) trained so that from that representation it is not possible to determine whether the input is from the source domain or the target and (2) a domain dependent representation (DDRep). The original input can then be reconstructed from those two representations. The classifier is trained only on source images using the DIRep. We show that information useful only in the source can be present in the DIRep, weakening the quality of the domain adaptation. To address this shortcoming, we ensure that DDRep is small and thus almost all information is available in the DIRep. We use synthetic data sets to illustrate a specific weakness, which we call the hidden data effect, and show in a simple context how our approach addresses it. We further showcase the performance of our approach against state-of-the-art algorithms using common image datasets. We also highlight the compatibility of our model with pretrained models, extending its applicability and versatility in real-world scenarios.
翻訳日:2024-02-19 20:56:09 公開日:2024-02-15
# 無線ネットワーク上の非同期多モデル動的フェデレーション学習:理論,モデリング,最適化

Asynchronous Multi-Model Dynamic Federated Learning over Wireless Networks: Theory, Modeling, and Optimization ( http://arxiv.org/abs/2305.13503v3 )

ライセンス: Link先を確認
Zhan-Lun Chang, Seyyedali Hosseinalipour, Mung Chiang, Christopher G. Brinton(参考訳) federated learning(fl)は、分散機械学習(ml)の鍵となるテクニックとして登場した。 FLに関するほとんどの文献はMLモデルのトレーニングに重点を置いている (i)一つのタスク/モデル (ii)モデルパラメータを更新するための同期スキーム、及び (iii) デバイス間の静的なデータ分散設定は,実用的な無線環境では現実的ではないことが多い。 そこで我々は,非同期モデル更新アーキテクチャ上で複数のダウンストリームタスク/モデルを持つ動的FLを考慮したDMA-FLを開発する。 まず,システムパラメータが学習性能に与える影響を捉えるために,スケジューリングテンソルと矩形関数を導入することで収束を特徴付ける。 我々の分析では、デバイストレーニング変数(例えば、局所的な勾配降下ステップの数)、非同期スケジューリング決定(例えば、デバイスがタスクを訓練するとき)、および動的データドリフトが、異なるタスクに対するMLトレーニングのパフォーマンスに与える影響について光を当てている。 これらの結果を利用して、資源割り当てと機器スケジューリングを共同で設定し、エネルギー消費とML性能の効率的なトレードオフを打つ最適化を行う。 得られた非凸混合整数プログラムの解法は、収束保証付き制約緩和と連続凸近似を用いる。 数値実験により,DMA-FLは性能・効率トレードオフを大幅に改善することがわかった。

Federated learning (FL) has emerged as a key technique for distributed machine learning (ML). Most literature on FL has focused on ML model training for (i) a single task/model, with (ii) a synchronous scheme for updating model parameters, and (iii) a static data distribution setting across devices, which is often not realistic in practical wireless environments. To address this, we develop DMA-FL considering dynamic FL with multiple downstream tasks/models over an asynchronous model update architecture. We first characterize convergence via introducing scheduling tensors and rectangular functions to capture the impact of system parameters on learning performance. Our analysis sheds light on the joint impact of device training variables (e.g., number of local gradient descent steps), asynchronous scheduling decisions (i.e., when a device trains a task), and dynamic data drifts on the performance of ML training for different tasks. Leveraging these results, we formulate an optimization for jointly configuring resource allocation and device scheduling to strike an efficient trade-off between energy consumption and ML performance. Our solver for the resulting non-convex mixed integer program employs constraint relaxations and successive convex approximations with convergence guarantees. Through numerical experiments, we reveal that DMA-FL substantially improves the performance-efficiency tradeoff.
翻訳日:2024-02-19 20:54:50 公開日:2024-02-15
# 事前計算による量子アルゴリズムの高速化

Accelerating Quantum Algorithms with Precomputation ( http://arxiv.org/abs/2305.09638v2 )

ライセンス: Link先を確認
William J. Huggins, Jarrod R. McClean(参考訳) 実世界のコンピューティング応用は極めて時間に敏感である。 事前の作業を行うことで、こうしたタスクを加速させることができれば、価値があるでしょう。 そこで本研究では,アルゴリズムへの入力が完全に指定される前の多項式量である「自由」計算に対して,量子プリ計算が可能な量子アルゴリズムのコストモデルと,それを利用する方法を提案する。 このコストモデルを実装するのに標準モデルよりも漸近的に効率的であるユニタリの2つのファミリーを分析した。 密度行列指数に基づく量子事前計算の最初の例は、ある条件下で指数的な優位性を与える。 第2の例はゲートテレポーテーションの変種を使用して、ユニタリを直接実装した場合と比較して二次的な利点を達成する。 これらの例は、量子プリ計算が量子優位を求める新しいアリーナを提供する可能性を示唆している。

Real-world applications of computing can be extremely time-sensitive. It would be valuable if we could accelerate such tasks by performing some of the work ahead of time. Motivated by this, we propose a cost model for quantum algorithms that allows quantum precomputation, i.e., for a polynomial amount of "free" computation before the input to an algorithm is fully specified, and methods for taking advantage of it. We analyze two families of unitaries that are asymptotically more efficient to implement in this cost model than in the standard one. The first example of quantum precomputation, based on density matrix exponentiation, could offer an exponential advantage under certain conditions. The second example uses a variant of gate teleportation to achieve a quadratic advantage when compared with implementing the unitaries directly. These examples hint that quantum precomputation may offer a new arena in which to seek quantum advantage
翻訳日:2024-02-19 20:53:12 公開日:2024-02-15
# 適応型大規模言語モデルは臨床テキスト要約において医療専門家に勝る

Adapted Large Language Models Can Outperform Medical Experts in Clinical Text Summarization ( http://arxiv.org/abs/2309.07430v4 )

ライセンス: Link先を確認
Dave Van Veen, Cara Van Uden, Louis Blankemeier, Jean-Benoit Delbrouck, Asad Aali, Christian Bluethgen, Anuj Pareek, Malgorzata Polacin, Eduardo Pontes Reis, Anna Seehofnerova, Nidhi Rohatgi, Poonam Hosamani, William Collins, Neera Ahuja, Curtis P. Langlotz, Jason Hom, Sergios Gatidis, John Pauly, Akshay S. Chaudhari(参考訳) 膨大なテキストデータを分析し、電子健康記録から重要な情報を要約することは、臨床医の時間の割り当てに多大な負担を課す。 大規模言語モデル (LLM) は自然言語処理 (NLP) において有望であるが, 様々な臨床要約タスクにおける有効性は証明されていない。 本研究では, 放射線診断報告, 患者質問, 進歩ノート, 医師と患者との対話の4つの異なる臨床要約課題に, 8つのLSMに適応法を適用した。 構文的、意味的、概念的NLPメトリクスによる定量的評価は、モデルと適応法の間のトレードオフを明らかにする。 10名の医師による臨床読者による研究は, 概略完全性, 正当性, 簡潔性を評価し, 多くの場合, もっとも適応したLSMの要約は, 医療専門家の要約と比較すると, 同等(45%)か上位(36%)である。 その後の安全性分析では、エラーを潜在的な医療被害と結びつけ、製造された情報の種類を分類することで、llmと医療専門家の両方が直面する課題が浮き彫りにされる。 本研究は,複数のタスクにまたがる臨床テキスト要約において,LSMが医療専門家より優れていることを示す。 このことは、LSMを臨床ワークフローに組み込むことでドキュメントの負担を軽減し、臨床医が患者のケアにもっと注力できることを示唆している。

Analyzing vast textual data and summarizing key information from electronic health records imposes a substantial burden on how clinicians allocate their time. Although large language models (LLMs) have shown promise in natural language processing (NLP), their effectiveness on a diverse range of clinical summarization tasks remains unproven. In this study, we apply adaptation methods to eight LLMs, spanning four distinct clinical summarization tasks: radiology reports, patient questions, progress notes, and doctor-patient dialogue. Quantitative assessments with syntactic, semantic, and conceptual NLP metrics reveal trade-offs between models and adaptation methods. A clinical reader study with ten physicians evaluates summary completeness, correctness, and conciseness; in a majority of cases, summaries from our best adapted LLMs are either equivalent (45%) or superior (36%) compared to summaries from medical experts. The ensuing safety analysis highlights challenges faced by both LLMs and medical experts, as we connect errors to potential medical harm and categorize types of fabricated information. Our research provides evidence of LLMs outperforming medical experts in clinical text summarization across multiple tasks. This suggests that integrating LLMs into clinical workflows could alleviate documentation burden, allowing clinicians to focus more on patient care.
翻訳日:2024-02-19 20:46:07 公開日:2024-02-15
# pt-regime破砕における相転移と熱力学的サイクル

Phase transitions and thermodynamic cycles in the broken PT-regime ( http://arxiv.org/abs/2308.06176v2 )

ライセンス: Link先を確認
Andreas Fring and Marta Reboiro(参考訳) そこで本研究では,同一条件下での古典カルノサイクルよりも効率が優れる新しい量子熱力学サイクルを提案する。 我々のモデルでは、このサイクルは非エルミート量子論の自発的に壊れたパリティ時間反転(PT)対称性状態の低温状態にのみ存在し、PT対称状態には現れない。 本稿では,非エルミート的に結合した単一ボソンのモデルに基づくアンサンブルに対するこの効果を,時間に依存しないボソンの異なる種類の浴槽に適用する。 系を不均一に考える場合、すなわち1次相転移を行う場合、このサイクルは設定できない。 その解釈の中で、自然に壊れたPT-レジームを通してエントロピーは消滅している。

We propose a new type of quantum thermodynamic cycle whose efficiency is greater than the one of the classical Carnot cycle for the same conditions for a system when viewed as homogeneous. In our model this type of cycle only exists in the low temperature regime in the spontaneously broken parity-time-reversal (PT) symmetry regime of a non-Hermitian quantum theory and does not manifest in the PT-symmetric regime. We discuss this effect for an ensemble based on a model of a single boson coupled in a non-Hermitian way to a bath of different types of bosons with and without a time-dependent boundary. The cycle can not be set up when considering our system as heterogeneous, i.e. undergoing a first order phase transition. Within that interpretation we find that the entropy is vanishing throughout the spontaneously broken PT-regime.
翻訳日:2024-02-19 20:45:42 公開日:2024-02-15
# 差別的特徴属性: ポストホック説明可能性と創発的解釈可能性

Discriminative Feature Attributions: Bridging Post Hoc Explainability and Inherent Interpretability ( http://arxiv.org/abs/2307.15007v2 )

ライセンス: Link先を確認
Usha Bhalla, Suraj Srinivas, Himabindu Lakkaraju(参考訳) 機械学習モデルをさまざまな現実世界のアプリケーションに展開する機会が増えるにつれ、研究者や実践者たちもモデル行動の説明の必要性を強調している。 この目的のために、モデルを説明するための2つの幅広い戦略が以前の文献で概説されている。 ポストホックな説明手法は、モデル予測に不可欠な特徴を特定することによって、複雑なブラックボックスモデルの振る舞いを説明するが、以前の研究では、これらの説明が忠実ではない可能性があることが示されている。 一方、直観的に解釈可能なモデルは、モデルアーキテクチャに説明を明示的にエンコードすることでこれらの問題を回避し、その説明は自然に忠実であるが、表現力の制限により予測性能が劣ることが多い。 本研究では,下位のブラックボックスモデルのロバスト性の欠如,特にインプット内の不注意な不注意な特徴の消去について,特徴属性の忠実さの欠如の主な理由を明らかにする。 この問題に対処するために, ブラックボックスモデルにディストラクタ消去に頑健に適応し, 差別的で忠実な属性を提供する方法であるDistractor Erasure Tuning (DiET)を提案する。 この戦略は、ポストホックな説明の使いやすさと本質的に解釈可能なモデルの忠実さを自然に組み合わせている。 半合成および実世界のデータセットに関する広範囲な実験を行い,(1)説明を意図したブラックボックスモデルに密接に近似したモデルを作成し,(2)構築時に得られる近似基底真理に一致する説明を与える。 私たちのコードはhttps://github.com/AI4LIFE-GROUP/DiETで公開されています。

With the increased deployment of machine learning models in various real-world applications, researchers and practitioners alike have emphasized the need for explanations of model behaviour. To this end, two broad strategies have been outlined in prior literature to explain models. Post hoc explanation methods explain the behaviour of complex black-box models by identifying features critical to model predictions; however, prior work has shown that these explanations may not be faithful, in that they incorrectly attribute high importance to features that are unimportant or non-discriminative for the underlying task. Inherently interpretable models, on the other hand, circumvent these issues by explicitly encoding explanations into model architecture, meaning their explanations are naturally faithful, but they often exhibit poor predictive performance due to their limited expressive power. In this work, we identify a key reason for the lack of faithfulness of feature attributions: the lack of robustness of the underlying black-box models, especially to the erasure of unimportant distractor features in the input. To address this issue, we propose Distractor Erasure Tuning (DiET), a method that adapts black-box models to be robust to distractor erasure, thus providing discriminative and faithful attributions. This strategy naturally combines the ease of use of post hoc explanations with the faithfulness of inherently interpretable models. We perform extensive experiments on semi-synthetic and real-world datasets and show that DiET produces models that (1) closely approximate the original black-box models they are intended to explain, and (2) yield explanations that match approximate ground truths available by construction. Our code is made public at https://github.com/AI4LIFE-GROUP/DiET.
翻訳日:2024-02-19 20:45:04 公開日:2024-02-15
# 大規模言語モデル研究における話題・著者・機関:17K arXiv論文の動向

Topics, Authors, and Institutions in Large Language Model Research: Trends from 17K arXiv Papers ( http://arxiv.org/abs/2307.10700v3 )

ライセンス: Link先を確認
Rajiv Movva, Sidhika Balachandar, Kenny Peng, Gabriel Agostini, Nikhil Garg, Emma Pierson(参考訳) 大規模言語モデル(LLM)がAI研究に劇的に影響を与えており、これまで何が変わったのか、どのようにフィールドの未来を形作るかについての議論が引き起こされている。 このような疑問を明らかにするため,2023年対2018-2022年の動向に着目し,16,979 LLM関連arXiv論文のデータセットを分析した。 LLM研究は、コンピュータと社会への20倍のLLMの提出によって証明される社会的な影響をますます考慮している。 2023年に最初の著者の半数が、CSの非NLP分野から参入し、学際的な拡張を推進している。 第2に,産業と学術出版の動向について考察する。 驚いたことに、2023年には業界がgoogleなどの大手テクノロジー企業からの生産量を減らして、出版シェアを縮小している。 第三に、私たちは制度的なコラボレーションについて研究している: 産学連携は一般的であるが、彼らは違いを橋渡しするよりも、業界が重視するのと同じトピックに焦点を当てる傾向がある。 最も多産な機関は米国か中国だが、国間の協力はほとんどない。 本稿では,(1)新著者の流入を支える方法,(2)産業界の動向が学術にどのような影響を及ぼすか,(3)協力の欠如がもたらす影響について論じる。

Large language models (LLMs) are dramatically influencing AI research, spurring discussions on what has changed so far and how to shape the field's future. To clarify such questions, we analyze a new dataset of 16,979 LLM-related arXiv papers, focusing on recent trends in 2023 vs. 2018-2022. First, we study disciplinary shifts: LLM research increasingly considers societal impacts, evidenced by 20x growth in LLM submissions to the Computers and Society sub-arXiv. An influx of new authors -- half of all first authors in 2023 -- are entering from non-NLP fields of CS, driving disciplinary expansion. Second, we study industry and academic publishing trends. Surprisingly, industry accounts for a smaller publication share in 2023, largely due to reduced output from Google and other Big Tech companies; universities in Asia are publishing more. Third, we study institutional collaboration: while industry-academic collaborations are common, they tend to focus on the same topics that industry focuses on rather than bridging differences. The most prolific institutions are all US- or China-based, but there is very little cross-country collaboration. We discuss implications around (1) how to support the influx of new authors, (2) how industry trends may affect academics, and (3) possible effects of (the lack of) collaboration.
翻訳日:2024-02-19 20:42:58 公開日:2024-02-15
# パラメタライズド量子回路の高次および高効率勾配境界

Tight and Efficient Gradient Bounds for Parameterized Quantum Circuits ( http://arxiv.org/abs/2309.12681v2 )

ライセンス: Link先を確認
Alistair Letcher, Stefan Woerner, Christa Zoufal(参考訳) パラメータ化されたモデルのトレーニングは、基礎となる損失関数のランドスケープに大きく依存する。 特に、消失勾配(バレンプラトーとも呼ばれる)は変分量子アルゴリズム(VQA)のスケーラビリティにおける中心的なボトルネックであり、回路深さやハードウェアノイズから大域観測可能まで様々な方法で生じることが知られている。 しかしながら、既存の勾配境界結果の注意事項は、一般的には満足できないt設計回路の仮定の必要性である。 本研究では,これらの仮定を完全に緩和し,パラメータ化された量子回路や任意の観測器の損失・勾配濃度の上限を,先行研究よりも大幅に強固に導出する。 さらに,これらの境界や損失自体のばらつきは,回路・観測可能がバレン高原を誘導するか否かの検証を含む,VQAモデルの損失景観を調査するための手法として,効率的かつ古典的に提案できることを示す。 この洞察は、局所的およびグローバル的用語からなる観測可能なVQAとして再構成できる生成モデルであるハイブリッド量子生成逆ネットワーク(qGANs)に直接的な意味を持つ。 判別器の設計は、判別器の深さによらず、キュービット数に一定な1局所的な重みをもたらすことが証明される。 最初のコントリビューションと組み合わせると、浅いジェネレータを持つqGANは、不毛の高原に悩まされることなく、大規模に訓練することが可能であり、生成量子機械学習への応用には有望な候補となる。 我々は,qGANを訓練して,最大16量子ビットのガウス分布の2次元混合を学習し,この勾配へのグローバルな寄与が,トレーニングの過程で大きく影響することを示す。

The training of a parameterized model largely depends on the landscape of the underlying loss function. In particular, vanishing gradients (also known as barren plateaus) are a central bottleneck in the scalability of variational quantum algorithms (VQAs), and are known to arise in various ways, from circuit depth and hardware noise to global observables. However, a caveat of most existing gradient bound results is the requirement of t-design circuit assumptions that are typically not satisfied in practice. In this work, we loosen these assumptions altogether and derive tight upper and lower bounds on loss and gradient concentration for a large class of parameterized quantum circuits and arbitrary observables, which are significantly stronger than prior work. Moreover, we show that these bounds, as well as the variance of the loss itself, can be estimated efficiently and classically--providing practical tools to study the loss landscapes of VQA models, including verifying whether or not a circuit/observable induces barren plateaus. This insight has direct implications for hybrid Quantum Generative Adversarial Networks (qGANs), a generative model that can be reformulated as a VQA with an observable composed of local and global terms. We prove that designing the discriminator appropriately leads to 1-local weights that stay constant in the number of qubits, regardless of discriminator depth. Combined with our first contribution, this implies that qGANs with shallow generators can be trained at scale without suffering from barren plateaus, making them a promising candidate for applications in generative quantum machine learning. We demonstrate this result by training a qGAN to learn a 2D mixture of Gaussian distributions with up to 16 qubits, and provide numerical evidence that global contributions to the gradient may kick in substantially over the course of training.
翻訳日:2024-02-19 20:34:31 公開日:2024-02-15
# トランスフォーマー言語モデルにおける関係復号の線形性

Linearity of Relation Decoding in Transformer Language Models ( http://arxiv.org/abs/2308.09124v2 )

ライセンス: Link先を確認
Evan Hernandez, Arnab Sen Sharma, Tal Haklay, Kevin Meng, Martin Wattenberg, Jacob Andreas, Yonatan Belinkov, David Bau(参考訳) トランスフォーマー言語モデル(lms)にエンコードされる知識の多くは、単語とその同義語、エンティティとその属性の関係など、関係性の観点から表現することができる。 関係のサブセットに対して、この計算は対象表現上の単一の線型変換によって近似されることを示す。 線形関係表現は、単一のプロンプトからlmへの一階近似を構築して得られることができ、それらは様々な事実的、常識的、言語的関係に対して存在する。 しかし,lm予測が関係知識を正確にとらえるケースが多数存在するが,その知識が表現に線形符号化されていない。 この結果から,トランスフォーマLMにおける知識表現戦略は単純かつ解釈可能であるが,不均一に展開されていることがわかった。

Much of the knowledge encoded in transformer language models (LMs) may be expressed in terms of relations: relations between words and their synonyms, entities and their attributes, etc. We show that, for a subset of relations, this computation is well-approximated by a single linear transformation on the subject representation. Linear relation representations may be obtained by constructing a first-order approximation to the LM from a single prompt, and they exist for a variety of factual, commonsense, and linguistic relations. However, we also identify many cases in which LM predictions capture relational knowledge accurately, but this knowledge is not linearly encoded in their representations. Our results thus reveal a simple, interpretable, but heterogeneously deployed knowledge representation strategy in transformer LMs.
翻訳日:2024-02-19 20:29:40 公開日:2024-02-15
# プロンプトに基づく時間領域一般化

Prompting-based Temporal Domain Generalization ( http://arxiv.org/abs/2310.02473v2 )

ライセンス: Link先を確認
Sepidehsadat Hosseini, Mengyao Zhai, Hossein Hajimirsadegh, Frederick Tung(参考訳) 機械学習は伝統的に、トレーニングとテストデータは独立して同一に分散されていると仮定する。 しかし、多くの実世界の環境では、データ分布は時間とともに変化し、将来の時間における訓練されたモデルの一般化が不十分になる。 本稿では,パラメータ効率が高く,時間効率が良く,トレーニング中に将来のデータにアクセスする必要のない,時間領域一般化のための新しいプロンプトベースアプローチを提案する。 本手法は,学習したモデルに時間的ドリフトを適用し,時間的ダイナミクスを捉えるグローバルプロンプト,ドメイン固有プロンプト,ドリフト認識プロンプトを学習する。 分類,回帰,時系列予測タスクの実験は,提案手法の汎用性を実証している。 コードリポジトリはパブリックに共有される。

Machine learning traditionally assumes that the training and testing data are distributed independently and identically. However, in many real-world settings, the data distribution can shift over time, leading to poor generalization of trained models in future time periods. This paper presents a novel prompting-based approach to temporal domain generalization that is parameter-efficient, time-efficient, and does not require access to future data during training. Our method adapts a trained model to temporal drift by learning global prompts, domain-specific prompts, and drift-aware prompts that capture underlying temporal dynamics. Experiments on classification, regression, and time series forecasting tasks demonstrate the generality of the proposed approach. The code repository will be publicly shared.
翻訳日:2024-02-19 20:19:49 公開日:2024-02-15
# 自己データを用いた生成モデルの反復再訓練の安定性について

On the Stability of Iterative Retraining of Generative Models on their own Data ( http://arxiv.org/abs/2310.00429v4 )

ライセンス: Link先を確認
Quentin Bertrand, Avishek Joey Bose, Alexandre Duplessis, Marco Jiralerspong, and Gauthier Gidel(参考訳) 深層生成モデルは複雑なデータのモデリングにおいて大きな進歩を遂げ、しばしばサンプルの真正性を識別する典型的な人間の能力を超える生成品質を示す。 間違いなく、この成功の重要な要因は、これらのモデルが消費する大量のWebスケールデータによって実現される。 これらのモデルの性能と可用性の容易さにより、Webは必然的に、合成コンテンツで人口が増えます。 このような事実は、生成モデルの将来のイテレーションは、彼らのトレーニングがクリーンなデータと過去のモデルから人工的に生成されたデータの両方からキュレートされているという事実と競合する必要があることを意味する。 本稿では,混合データセット(実データと合成データ)に対する生成モデルの学習が安定性に与える影響を厳格に研究する枠組みを開発した。 まず, 初期生成モデルがデータ分布を十分に近似し, クリーントレーニングデータ(w.r.t.合成データ)の比率が十分に大きいことを条件として, 反復学習の安定性を証明する。 我々は,CIFAR10およびFFHQ上の正規化流れと最先端拡散モデルを用いて,合成画像と自然画像の両方に関する理論を実験的に検証した。

Deep generative models have made tremendous progress in modeling complex data, often exhibiting generation quality that surpasses a typical human's ability to discern the authenticity of samples. Undeniably, a key driver of this success is enabled by the massive amounts of web-scale data consumed by these models. Due to these models' striking performance and ease of availability, the web will inevitably be increasingly populated with synthetic content. Such a fact directly implies that future iterations of generative models must contend with the reality that their training is curated from both clean data and artificially generated data from past models. In this paper, we develop a framework to rigorously study the impact of training generative models on mixed datasets (of real and synthetic data) on their stability. We first prove the stability of iterative training under the condition that the initial generative models approximate the data distribution well enough and the proportion of clean training data (w.r.t. synthetic data) is large enough. We empirically validate our theory on both synthetic and natural images by iteratively training normalizing flows and state-of-the-art diffusion models on CIFAR10 and FFHQ.
翻訳日:2024-02-19 20:18:12 公開日:2024-02-15
# 一般化可能なインスタンスワイズ不変性のための変換学習

Learning to Transform for Generalizable Instance-wise Invariance ( http://arxiv.org/abs/2309.16672v3 )

ライセンス: Link先を確認
Utkarsh Singhal and Carlos Esteves and Ameesh Makadia and Stella X. Yu(参考訳) コンピュータビジョン研究は長い間、自然データに見られる空間変換に頑健なシステムの構築を目指してきた。 伝統的に、これはアーキテクチャへのデータ拡張やハードコーディングの不変性を使って行われる。 しかし、多すぎる、あるいは少なすぎる不変性が損なわれ、正確な量は未定であり、インスタンスに依存している。 理想的には、適切な不変性はデータから学び、テスト時に推測される。 我々は不変性を予測問題として扱う。 どんな画像でも、正規化フローを使って変換の分布を予測し、それに対する予測を平均化します。 この分布はインスタンスのみに依存するため、それらを分類する前にインスタンスをアライメントし、クラス間の不変性を一般化することができる。 同じ分布は、分配外ポーズに適応するためにも使用できる。 この正規化フローはエンドツーエンドでトレーニングされており、AugerinoやInstaAugよりもはるかに広い範囲の変換を学ぶことができる。 データ拡張として使用すると、cifar 10、cifar10-lt、tinyimagenetで精度とロバスト性が向上する。

Computer vision research has long aimed to build systems that are robust to spatial transformations found in natural data. Traditionally, this is done using data augmentation or hard-coding invariances into the architecture. However, too much or too little invariance can hurt, and the correct amount is unknown a priori and dependent on the instance. Ideally, the appropriate invariance would be learned from data and inferred at test-time. We treat invariance as a prediction problem. Given any image, we use a normalizing flow to predict a distribution over transformations and average the predictions over them. Since this distribution only depends on the instance, we can align instances before classifying them and generalize invariance across classes. The same distribution can also be used to adapt to out-of-distribution poses. This normalizing flow is trained end-to-end and can learn a much larger range of transformations than Augerino and InstaAug. When used as data augmentation, our method shows accuracy and robustness gains on CIFAR 10, CIFAR10-LT, and TinyImageNet.
翻訳日:2024-02-19 20:17:29 公開日:2024-02-15
# ハードウェア効率トレーニングによるゲートリニアアテンショントランス

Gated Linear Attention Transformers with Hardware-Efficient Training ( http://arxiv.org/abs/2312.06635v4 )

ライセンス: Link先を確認
Songlin Yang, Bailin Wang, Yikang Shen, Rameswar Panda, Yoon Kim(参考訳) 線形アテンションを持つ変換器は効率的な並列トレーニングを可能にするが、2D隠れ状態を持つRNNとして同時に定式化することができ、線形時間推論の複雑さを享受できる。 しかし、一般に線形注意は通常のソフトマックスの注意を過小評価する。 さらに, 線形アテンションの現在の実装はI/O認識に欠けており, ソフトマックスアテンションの高度に最適化された実装よりも遅い。 本稿では,メモリ移動を並列性から切り離す線形注意のためのハードウェア効率のよいアルゴリズムについて述べる。 その結果、FLASHLINEARATTENTIONと呼ばれる実装は、短いシーケンス長(1Kなど)でもスタンドアロン層としてFLASHATTENTION-2(Dao, 2023)よりも高速である。 次に、このアルゴリズムをデータ依存ゲートを持つより表現力のある線形注意の変種に一般化する。 トランスフォーマーの標準アテンション層の代わりに使用される場合、結果として得られるゲート型リニアアテンション(GLA)トランスフォーマーは、LLaMA-architecture Transformer (Touvron et al., 2023) やRetNet (Sun et al., 2023a) やMamba (Gu & Dao, 2023) といった最近の線形時間推論ベースラインに対して、中規模言語モデリング実験において競合的に動作する。 GLA変換器は特に長さの一般化に有効であり、2Kで訓練されたモデルでPG19上で28Kに一般化できる。 トレーニング速度では、GLA Transformerは同様のサイズのMambaモデルよりもスループットが高い。

Transformers with linear attention allow for efficient parallel training but can simultaneously be formulated as an RNN with 2D (matrix-valued) hidden states, thus enjoying linear-time inference complexity. However, linear attention generally underperforms ordinary softmax attention. Moreover, current implementations of linear attention lack I/O-awareness and are thus slower than highly optimized implementations of softmax attention. This work describes a hardware-efficient algorithm for linear attention that trades off memory movement against parallelizability. The resulting implementation, dubbed FLASHLINEARATTENTION, is faster than FLASHATTENTION-2(Dao, 2023) as a standalone layer even at short sequence lengths (e.g., 1K). We then generalize this algorithm to a more expressive variant of linear attention with data-dependent gates. When used as a replacement for the standard attention layer in Transformers, the resulting gated linear attention (GLA) Transformer is found to perform competitively against the LLaMA-architecture Transformer (Touvron et al., 2023) as well recent linear-time-inference baselines such as RetNet(Sun et al., 2023a) and Mamba (Gu & Dao, 2023) on moderate-scale language modeling experiments. GLA Transformer is especially effective at length generalization, enabling a model trained on 2K to generalize to 28K on PG19 without significant perplexity degradations. For training speed, the GLA Transformer has higher throughput than a similarly-sized Mamba model.
翻訳日:2024-02-19 19:45:08 公開日:2024-02-15
# 非Linear関数を文脈で学習するトランスフォーマーによる機能的グラディエントDescentの実現

Transformers Implement Functional Gradient Descent to Learn Non-Linear Functions In Context ( http://arxiv.org/abs/2312.06528v4 )

ライセンス: Link先を確認
Xiang Cheng, Yuxin Chen, Suvrit Sra(参考訳) 多くのニューラルネットワークアーキテクチャはチューリング完全であることが知られており、原理的には任意のアルゴリズムを実装できる。 しかし、トランスフォーマーは単純なパラメータ設定で勾配ベースの学習アルゴリズムを実装できるという点でユニークである。 本稿では,(非線形)トランスフォーマーが自然に関数空間の勾配降下を実装することを学習し,それによってコンテキスト内で非線形関数を学習できるという理論的および実証的な証拠を提供する。 本研究は,非線形アーキテクチャと非線形インコンテキスト学習タスクの幅広い組み合わせに適用する。 さらに、非線形活性化の最適選択は、学習すべき関数のクラスに自然に依存していることが示される。

Many neural network architectures are known to be Turing Complete, and can thus, in principle implement arbitrary algorithms. However, Transformers are unique in that they can implement gradient-based learning algorithms under simple parameter configurations. This paper provides theoretical and empirical evidence that (non-linear) Transformers naturally learn to implement gradient descent in function space, which in turn enable them to learn non-linear functions in context. Our results apply to a broad class of combinations of non-linear architectures and non-linear in-context learning tasks. Additionally, we show that the optimal choice of non-linear activation depends in a natural way on the class of functions that need to be learned.
翻訳日:2024-02-19 19:44:31 公開日:2024-02-15
# 単粒子トンネルにおける転化誤差の影響

Influence of Trotterization error on single-particle tunneling ( http://arxiv.org/abs/2312.04735v2 )

ライセンス: Link先を確認
Anton V. Khvalyuk, Kostyantyn Kechedzhi, Vadim S. Smelyansky, Lev B. Ioffe(参考訳) スズキ・トロッター近似(STA)を用いた単粒子トンネル問題のシミュレーションを行った。 いくつかの局所的なミニマを持つスムーズな位置依存電位プロファイルの存在下で、異なるミニマにおける局所化された状態間のトンネル問題を配置する粒子ホッピングである。 STAエラーは3つの方法で現れる。 一 摂動エネルギーシフト 二 トンネル率の非摂動的再正規化、及び 三 他の国に対する総確率の摂動的漏洩 一般に、トンネル共鳴の変形を指数的に小さなトンネル速度と比較する必要があるため、最初のタイプの誤差が最も重要である。 脱調(例えば共鳴が対称性によって保護されている場合)がない場合、STAはトンネルの速度を指数関数的に向上させる。 最後のタイプのエラーは、波動関数の全体的な欠陥を分類し、STAによる波動関数の十分に弱い歪みの領域を列挙する。 実験により,適用可能性の素質的基準である$\max\{T,P\}\ll\delta t^{-1}$(それぞれ$T,P$)を確認し,システムパラメータによる誤差の構造と挙動を明らかにする。 また、大きなトロッターステップの場合の分析も行われ、主な結果は、2/pi/\delta t$に近いエネルギー差を持つ状態間のカップリングによる低エネルギースペクトルの再構成である。 得られた結果とSTA誤差の厳密な上限との接続について論じ、特にこれらの厳密な境界が常に飽和していない理由を強調した。 また,提案した問題を既存の量子デバイス [arXiv:2012.00921] に直接実装可能であることも指摘した。 特に、説明された物理学を実証する実験設計の詳細な説明を与える。

Simulation of the single-particle tunneling problem by means of the Suzuki-Trotter approximation (STA) is analyzed. Considered is a particle hopping across a chain of sites in presence of a smooth position-dependent potential profile with several local minima that arrange a tunneling problem between the localized states in different minima. The STA error is found to manifest itself in three ways: i) perturbative energy shifts, ii) nonperturbartive renormalization of the tunneling rates, and iii) perturbative leakage of the total probability to other states. Generally, the first type of error is the most essential, as detuning of the tunneling resonance has to be compared with exponentially small tunneling rates. In absence of detuning (e.g. if the resonance is protected by symmetry), STA leads to exponential enhancement of the tunneling rates. The last type of error classifies the overall defect in the wave function and delineates the region of sufficiently weak distortion of the wave function due to STA. The conducted analysis confirms the naive criteria of applicability $\max\{T,P\}\ll\delta t^{-1}$ (with $T,P$ being the typical scales of kinetic and potential terms, respectively), while also revealing the structure of error and its behavior with system parameters. Analysis of the case of large Trotter step is also performed, with the main result being the reconstruction of low-energy spectrum due to coupling between states with energy difference close to $2\pi/\delta t$. The connection of the obtained results with rigorous upper error bounds on the STA error is discussed, with particular emphasis on why these rigorous bounds are not always saturated. We also point out that the proposed problem can be directly implemented on existing quantum devices [arXiv:2012.00921]. In particular, we give a detailed description of an experimental design that demonstrates the described physics.
翻訳日:2024-02-19 19:43:48 公開日:2024-02-15
# 言語モデルはライブラリか、それともライブラリアンか? 書誌テクニズム, 新たな参照問題, llmの態度

Are Language Models More Like Libraries or Like Librarians? Bibliotechnism, the Novel Reference Problem, and the Attitudes of LLMs ( http://arxiv.org/abs/2401.04854v2 )

ライセンス: Link先を確認
Harvey Lederman, Kyle Mahowald(参考訳) LLMは、光コピー機や印刷機のような、情報を伝えるが新しいコンテンツを作ることができない文化技術なのか? ビブリオテクニズム(bibliotechnism)と呼ばれるこのアイデアの課題は、LLMがしばしば全く新しいテキストを生成することだ。 我々は(第1部),この課題に対する書誌テクニズムの持続的擁護から始めて,たとえ全く新しいテキストであってもデリバティブな意味でのみ意味があるのかを示し,特にllmsによって生成された多くの新しいテキストはデリバティブな意味しか持たないと主張する。 しかし、(パートII)は、LLMが新しい名前を使って「ノーベル・レファレンス」を生成する例から始まり、ビブリオテクニズムは異なる、新しい課題に直面していると論じる。 LLMが文化的技術ではなく、限られた形態のエージェンシー(信条、願望、意図)を持っていた場合、このような例は円滑に説明できる。 心の哲学の解釈論によれば、システムが信念、欲望、意図を持っているのは、その行動がそのような状態を持っているという仮説によってよく説明されている場合に限りである。 したがって、解釈主義によれば、新しい参照の事例は、LLMが信念、欲望、意図を持っているという証拠を提供する。 解釈主義がこれらの状態の性質に関する生きた仮説であることを考えると、新しい参照の場合、LLMが信念、欲求、意図を持っているという証拠が得られることを示唆する。

Are LLMs cultural technologies like photocopiers or printing presses, which transmit information but cannot create new content? A challenge for this idea, which we call bibliotechnism, is that LLMs often generate entirely novel text. We begin (Part I) with a sustained defense of bibliotechnism against this challenge showing how even entirely novel text may be meaningful only in a derivative sense, and arguing that, in particular, much novel text generated by LLMs is only derivatively meaningful. But we argue (Part II) that bibliotechnism faces a different, novel challenge, stemming from examples in which LLMs generate "novel reference", using novel names to refer to novel entities. Such examples could be smoothly explained if LLMs were not cultural technologies but possessed a limited form of agency (beliefs, desires, and intentions). According to interpretationism in the philosophy of mind, a system has beliefs, desires and intentions if and only if its behavior is well explained by the hypothesis that it has such states. So, according to interpretationism, cases of novel reference provide evidence that LLMs have beliefs, desires, and intentions. Given that interpretationism is a live hypothesis about the nature of these states, we suggest that cases of novel reference provide evidence that LLMs do have beliefs, desires, and intentions.
翻訳日:2024-02-19 19:32:11 公開日:2024-02-15
# ソフトタッチによるノーム強化:より高速な創発, 幸せなエージェント

Norm Enforcement with a Soft Touch: Faster Emergence, Happier Agents ( http://arxiv.org/abs/2401.16461v2 )

ライセンス: Link先を確認
Sz-Ting Tzeng, Nirav Ajmeri, Munindar P. Singh(参考訳) マルチエージェントシステム(multiagent system)は、社会的規範を通じて相互作用を規制できる自律的なエージェントの社会である。 一般に、社会の規範はハードコードされていないが、エージェントの相互作用から生まれる。 特に、社会のエージェントがお互いの行動にどう反応し、他人の反応に反応するかは、社会においてどの規範が現れるかを決定する。 第1のエージェントから第2のエージェントへのコミュニケーションとして、他のエージェントの満足な行動や不満足な行動に対するエージェントによるこれらの反応を考えます。 これらのコミュニケーションを理解することは、一種の社会的知性である:これらのコミュニケーションは、エージェントを特定の行動に向かわせることによって、規範の発生を自然に促進する。 制裁が規範の出現につながることはよく知られているが、より広い種類の社会知能がマルチエージェントシステムにおける協力を促進する上でより効果的であることを示す。 そこで我々は,ソーシャルインテリジェンスをさまざまなコミュニケーションや理解を通じてモデル化するフレームワークであるNestを開発した。 そこで本研究では,nestをシミュレーションしたパンデミック環境を構築し,社会コミュニケーションの3種類の組み合わせを考慮に入れて,nestとベースラインを比較するシミュレーション実験を行った。 ネストエージェントからなる社会は、規範をより早く達成できることが分かる。 さらに、Nestエージェントは、ネガティブな制裁や目標の逸脱である望ましくない結果を効果的に回避し、同等の情報しか必要とせず、ベースラインエージェントよりも満足度が高い。

A multiagent system is a society of autonomous agents whose interactions can be regulated via social norms. In general, the norms of a society are not hardcoded but emerge from the agents' interactions. Specifically, how the agents in a society react to each other's behavior and respond to the reactions of others determines which norms emerge in the society. We think of these reactions by an agent to the satisfactory or unsatisfactory behaviors of another agent as communications from the first agent to the second agent. Understanding these communications is a kind of social intelligence: these communications provide natural drivers for norm emergence by pushing agents toward certain behaviors, which can become established as norms. Whereas it is well-known that sanctioning can lead to the emergence of norms, we posit that a broader kind of social intelligence can prove more effective in promoting cooperation in a multiagent system. Accordingly, we develop Nest, a framework that models social intelligence via a wider variety of communications and understanding of them than in previous work. To evaluate Nest, we develop a simulated pandemic environment and conduct simulation experiments to compare Nest with baselines considering a combination of three kinds of social communication: sanction, tell, and hint. We find that societies formed of Nest agents achieve norms faster. Moreover, Nest agents effectively avoid undesirable consequences, which are negative sanctions and deviation from goals, and yield higher satisfaction for themselves than baseline agents despite requiring only an equivalent amount of information.
翻訳日:2024-02-19 19:23:31 公開日:2024-02-15
# カスケード強化学習

Cascading Reinforcement Learning ( http://arxiv.org/abs/2401.08961v2 )

ライセンス: Link先を確認
Yihan Du, R. Srikant, Wei Chen(参考訳) cascading banditsは、レコメンデーションシステムやオンライン広告に適用できるため、近年人気を集めている。 カスケーディング・バンディット・モデルでは、各段階においてエージェントはアイテムのプールからアイテムの順序付きサブセット(アイテムリストと呼ばれる)を推奨し、それぞれが未知のアトラクション確率に関連付けられている。 そして、ユーザがリストを調べて、最初の魅力的なアイテム(もしあれば)をクリックし、その後、エージェントは報酬を受け取る。 エージェントの目標は、期待される累積報酬を最大化することです。 しかし、カスケードの盗賊に関する以前の文献は、セッションが進むにつれて、レコメンデーションや状態の変化に対するユーザー状態(例えば歴史的な行動)の影響を無視している。 この事実を動機として,ユーザ状態と状態遷移が意思決定に与える影響を考慮し,一般化されたカスケードRLフレームワークを提案する。 カスケードRLでは、大きなアトラクション確率を持つだけでなく、優れた後継状態につながる項目を選択する必要がある。 これは組合せ作用空間のために大きな計算上の困難を課す。 この課題に対処するため、我々は値関数の特性を調べ、最適な項目リストを効率的に見つけるためにBestPermを設計します。 BestPermを組み込んだCascadingVIとCascadingBPIの2つのアルゴリズムを開発した。 さらに,既存のrlアルゴリズムの直接適応と比較して,アルゴリズムの計算効率およびサンプル効率が向上することを示す実験を行った。

Cascading bandits have gained popularity in recent years due to their applicability to recommendation systems and online advertising. In the cascading bandit model, at each timestep, an agent recommends an ordered subset of items (called an item list) from a pool of items, each associated with an unknown attraction probability. Then, the user examines the list, and clicks the first attractive item (if any), and after that, the agent receives a reward. The goal of the agent is to maximize the expected cumulative reward. However, the prior literature on cascading bandits ignores the influences of user states (e.g., historical behaviors) on recommendations and the change of states as the session proceeds. Motivated by this fact, we propose a generalized cascading RL framework, which considers the impact of user states and state transition into decisions. In cascading RL, we need to select items not only with large attraction probabilities but also leading to good successor states. This imposes a huge computational challenge due to the combinatorial action space. To tackle this challenge, we delve into the properties of value functions, and design an oracle BestPerm to efficiently find the optimal item list. Equipped with BestPerm, we develop two algorithms CascadingVI and CascadingBPI, which are both computationally-efficient and sample-efficient, and provide near-optimal regret and sample complexity guarantees. Furthermore, we present experiments to show the improved computational and sample efficiencies of our algorithms compared to straightforward adaptations of existing RL algorithms in practice.
翻訳日:2024-02-19 19:19:20 公開日:2024-02-15
# プライバシアウェアエージェントの集団意思決定

Group Decision-Making among Privacy-Aware Agents ( http://arxiv.org/abs/2402.08156v2 )

ライセンス: Link先を確認
Marios Papachristou, M. Amin Rahimian(参考訳) プライバシーやセキュリティの懸念にもかかわらず、個人はどのように情報を交換して相互に学び合うのか? 例えば、議論の多いトピックを熟考し、個人的な経験を開示することに関心を持つ個人を考える。 個人のプライバシーを維持し、効果的な社会的学習を可能にすることはどちらも重要なデシダータであるが、基本的には互いに相反し、和解が困難である。 我々は、差分プライバシー(dp)に基づく厳密な統計保証を用いて情報漏洩を制御する。 我々のエージェントは、隣人と通信した後、彼らの信念を更新するためにログリニアルールを使用します。 信条にDPランダム化ノイズを加えることで、コミュニケーションエージェントは、彼らのプライベート情報とそのネットワーク近隣について、もっともらしい識別性が得られる。 2つの学習環境を,有限個のプライベート信号が与えられた分散最大様相推定用と,無限の断続的な信号ストリームからオンライン学習用と考えて検討した。 有限ケースにおけるノイズ情報集約は、低品質状態の拒絶と、アルゴリズム出力にすべての高品質状態が受け入れられることの間の興味深いトレードオフをもたらす。 その結果,グループ意思決定の結果の質,学習精度,通信コスト,エージェントが備えているプライバシー保護の水準の両面でのトレードオフの性質が明らかになった。

How can individuals exchange information to learn from each other despite their privacy needs and security concerns? For example, consider individuals deliberating a contentious topic and being concerned about divulging their private experiences. Preserving individual privacy and enabling efficient social learning are both important desiderata but seem fundamentally at odds with each other and very hard to reconcile. We do so by controlling information leakage using rigorous statistical guarantees that are based on differential privacy (DP). Our agents use log-linear rules to update their beliefs after communicating with their neighbors. Adding DP randomization noise to beliefs provides communicating agents with plausible deniability with regard to their private information and their network neighborhoods. We consider two learning environments one for distributed maximum-likelihood estimation given a finite number of private signals and another for online learning from an infinite, intermittent signal stream. Noisy information aggregation in the finite case leads to interesting tradeoffs between rejecting low-quality states and making sure all high-quality states are accepted in the algorithm output. Our results flesh out the nature of the trade-offs in both cases between the quality of the group decision outcomes, learning accuracy, communication cost, and the level of privacy protections that the agents are afforded.
翻訳日:2024-02-19 19:10:20 公開日:2024-02-15
# インコンテキスト書き換えによるブラックボックスロバストネスの改善

Improving Black-box Robustness with In-Context Rewriting ( http://arxiv.org/abs/2402.08225v2 )

ライセンス: Link先を確認
Kyle O'Brien, Nathan Ng, Isha Puri, Jorge Mendez, Hamid Palangi, Yoon Kim, Marzyeh Ghassemi, Thomas Hartvigsen(参考訳) マシンラーニングモデルは、しばしば非分散(in-distribution, id)データに優れているが、ood(unseen out-distribution)入力に苦しむ。 OODロバスト性を改善するほとんどのテクニックは、重量が凍結されたり、再トレーニングがコストがかかるり、あるいはAPI経由でモデルを利用するような、モデルが事実上ブラックボックスであるような設定には適用できない。 TTA(Test-time augmentation)は、テスト入力の複数の拡張にまたがる予測を集約することでブラックボックス制約を傍受するロバスト性を改善する単純なポストホック手法である。 TTAは、効果的な自然言語拡張を生成することの難しさから、NLPでの使用が制限されている。 本研究では,LLM生成オーグメンテーションをTTAのオーグメンテーション関数として用いるLLM-TTAを提案する。 LLM-TTA は BERT と T5 のモデルにおいて、感情、毒性、ニュース分類といった従来の拡張機能よりも優れており、BERT の OOD の堅牢性は平均 4.30 ポイント向上している。 予測エントロピーに基づいて入力を選択的に増補し、高価なllm増補率を削減し、生成した増補の平均数を57.76%削減しながら性能向上を維持する。 LLM-TTAはタスクモデルアーキテクチャに非依存であり、OODラベルを必要としない。 再現性のためのデータ、モデル、コードを共有しています。

Machine learning models often excel on in-distribution (ID) data but struggle with unseen out-of-distribution (OOD) inputs. Most techniques for improving OOD robustness are not applicable to settings where the model is effectively a black box, such as when the weights are frozen, retraining is costly, or the model is leveraged via an API. Test-time augmentation (TTA) is a simple post-hoc technique for improving robustness that sidesteps black-box constraints by aggregating predictions across multiple augmentations of the test input. TTA has seen limited use in NLP due to the challenge of generating effective natural language augmentations. In this work, we propose LLM-TTA, which uses LLM-generated augmentations as TTA's augmentation function. LLM-TTA outperforms conventional augmentation functions across sentiment, toxicity, and news classification tasks for BERT and T5 models, with BERT's OOD robustness improving by an average of 4.30 percentage points without regressing average ID performance. We explore selectively augmenting inputs based on prediction entropy to reduce the rate of expensive LLM augmentations, allowing us to maintain performance gains while reducing the average number of generated augmentations by 57.76%. LLM-TTA is agnostic to the task model architecture, does not require OOD labels, and is effective across low and high-resource settings. We share our data, models, and code for reproducibility.
翻訳日:2024-02-19 18:58:01 公開日:2024-02-15
# マニピュレーション検出におけるサリエンシバイアスの探索

Exploring Saliency Bias in Manipulation Detection ( http://arxiv.org/abs/2402.07338v2 )

ライセンス: Link先を確認
Joshua Krinsky, Alan Bettis, Qiuyu Tang, Daniel Moreira, Aparna Bharati(参考訳) 画像の改ざんによる偽ニュースや誤情報のソーシャルメディアによる爆発は、画像操作検出のためのモデルやデータセットの開発に繋がった。 しかし、既存の検出方法は、特定の操作が視聴者の知覚に与える影響を考慮せずに、メディアオブジェクトを分離して扱う。 法医学データセットは、通常、操作操作と対応するピクセルベースのマスクに基づいて分析されるが、操作の意味、すなわちシーンの種類、オブジェクト、および視聴者のシーンコンテンツに対する注意に基づくものではない。 操作の意味論は、操作された画像を通して誤情報を拡散する上で重要な役割を果たす。 視覚誤情報を理解するための意味認識法医学的手法のさらなる発展を促すために,人気のある画像操作データセットにおける視覚的・意味的サルマンシーの動向と検出への影響を分析するフレームワークを提案する。

The social media-fuelled explosion of fake news and misinformation supported by tampered images has led to growth in the development of models and datasets for image manipulation detection. However, existing detection methods mostly treat media objects in isolation, without considering the impact of specific manipulations on viewer perception. Forensic datasets are usually analyzed based on the manipulation operations and corresponding pixel-based masks, but not on the semantics of the manipulation, i.e., type of scene, objects, and viewers' attention to scene content. The semantics of the manipulation play an important role in spreading misinformation through manipulated images. In an attempt to encourage further development of semantic-aware forensic approaches to understand visual misinformation, we propose a framework to analyze the trends of visual and semantic saliency in popular image manipulation datasets and their impact on detection.
翻訳日:2024-02-19 18:56:20 公開日:2024-02-15
# より説得力のあるLLMによる議論は、より真に答える

Debating with More Persuasive LLMs Leads to More Truthful Answers ( http://arxiv.org/abs/2402.06782v2 )

ライセンス: Link先を確認
Akbir Khan, John Hughes, Dan Valentine, Laura Ruis, Kshitij Sachan, Ansh Radhakrishnan, Edward Grefenstette, Samuel R. Bowman, Tim Rockt\"aschel and Ethan Perez(参考訳) 大規模言語モデル(llm)を望ましい振る舞いに合わせる一般的な方法は、人間のラベルデータに大きく依存する。 しかし、モデルが高度化するにつれて、それらは人間の専門知識を超え、人間の評価の役割は専門家を監督する非専門家へと進化する。 より弱いモデルはより強固なモデルの正確性を評価することができるか? より強力なモデル(専門家)が疑問に答えるために必要な情報を持ち、より弱いモデル(専門家でない者)がこの情報を欠いている類似の環境でこの問題を調査する。 評価するメソッドは \textit{debate} で、2人のllmの専門家がそれぞれ異なる答えを議論し、非専門家が答えを選択する。 議論は、非専門家モデルと人間の両方が、それぞれ76\%と88\%の精度で質問に答えるのを一貫して助けている(ナイーブベースラインは48\%と60\%)。 さらに、専門家の議論者を指導されていない方法で説得力に最適化することで、議論の真相を識別する非専門家能力が向上する。 以上の結果から,基礎的真理の欠如によるモデルと議論の整合性に関する実証的証拠が得られた。

Common methods for aligning large language models (LLMs) with desired behaviour heavily rely on human-labelled data. However, as models grow increasingly sophisticated, they will surpass human expertise, and the role of human evaluation will evolve into non-experts overseeing experts. In anticipation of this, we ask: can weaker models assess the correctness of stronger models? We investigate this question in an analogous setting, where stronger models (experts) possess the necessary information to answer questions and weaker models (non-experts) lack this information. The method we evaluate is \textit{debate}, where two LLM experts each argue for a different answer, and a non-expert selects the answer. We find that debate consistently helps both non-expert models and humans answer questions, achieving 76\% and 88\% accuracy respectively (naive baselines obtain 48\% and 60\%). Furthermore, optimising expert debaters for persuasiveness in an unsupervised manner improves non-expert ability to identify the truth in debates. Our results provide encouraging empirical evidence for the viability of aligning models with debate in the absence of ground truth.
翻訳日:2024-02-19 18:55:25 公開日:2024-02-15
# uavネットワークにおけるブロックチェーン対応クラスタ型スケーラブル連合学習(bcs-fl)フレームワーク

Blockchain-enabled Clustered and Scalable Federated Learning (BCS-FL) Framework in UAV Networks ( http://arxiv.org/abs/2402.05973v2 )

ライセンス: Link先を確認
Sana Hafeez, Lina Mohjazi, Muhammad Ali Imran and Yao Sun(参考訳) プライバシ、スケーラビリティ、信頼性は、無人航空機(UAV)ネットワークを分散システムとして扱う上で重要な課題である。 近年,連合学習(FL)のUAVネットワークへの適用により,コラボレーション,プライバシ,レジリエンス,適応性が向上し,UAVアプリケーションにとって有望なフレームワークとなっている。 しかし、UAVネットワーク用のFLの実装には、通信オーバーヘッド、同期問題、スケーラビリティ制限、リソース制約といった欠点が伴う。 これらの課題に対処するために,本稿では,UAVネットワークのためのブロックチェーン対応クラスタリングおよびスケーラブルフェデレーションラーニング(BCS-FL)フレームワークを提案する。 これにより、大規模uavネットワークにおけるflの分散化、コーディネーション、スケーラビリティ、効率が向上する。 このフレームワークは、UAVネットワークをクラスタヘッドUAV(CHs)によって調整された別々のクラスタに分割し、連結グラフを確立する。 クラスタリングにより、MLモデルの更新を効率的に調整できる。 さらに、クラスタ間ハイブリッドおよびクラスタ内モデル集約スキームは、各トレーニングラウンドの後にグローバルモデルを生成し、クラスタ間のコラボレーションと知識共有を改善する。 この数値的な結果は, 学習効果とコミュニケーション効率のトレードオフを強調しつつ, 収束の達成を示すものである。

Privacy, scalability, and reliability are significant challenges in unmanned aerial vehicle (UAV) networks as distributed systems, especially when employing machine learning (ML) technologies with substantial data exchange. Recently, the application of federated learning (FL) to UAV networks has improved collaboration, privacy, resilience, and adaptability, making it a promising framework for UAV applications. However, implementing FL for UAV networks introduces drawbacks such as communication overhead, synchronization issues, scalability limitations, and resource constraints. To address these challenges, this paper presents the Blockchain-enabled Clustered and Scalable Federated Learning (BCS-FL) framework for UAV networks. This improves the decentralization, coordination, scalability, and efficiency of FL in large-scale UAV networks. The framework partitions UAV networks into separate clusters, coordinated by cluster head UAVs (CHs), to establish a connected graph. Clustering enables efficient coordination of updates to the ML model. Additionally, hybrid inter-cluster and intra-cluster model aggregation schemes generate the global model after each training round, improving collaboration and knowledge sharing among clusters. The numerical findings illustrate the achievement of convergence while also emphasizing the trade-offs between the effectiveness of training and communication efficiency.
翻訳日:2024-02-19 18:54:18 公開日:2024-02-15
# 非有界・縮退騒音を有する線形系のオンライン制御

Online Control of Linear Systems with Unbounded and Degenerate Noise ( http://arxiv.org/abs/2402.10252v1 )

ライセンス: Link先を確認
Kaito Ito, Taira Tsuchiya(参考訳) 本稿では,オンライン制御問題として知られる未知コスト関数を持つ非有界・縮退騒音下での線形システム制御の問題について検討する。 ノイズの有界性を仮定する既存の研究とは対照的に、凸コストに対して、$ \widetilde{O}(\sqrt{T}) $ regret bound は非有界ノイズに対しても達成可能である。 さらに、コストが強凸である場合、ノイズ共変性が非退化であると仮定せずに o({\rm poly} (\log t)) $ regret bound を確立する。 ノイズのランク推定を除去する鍵となる要素は、ノイズの共分散に関連するシステム変換である。 これにより、オンライン制御アルゴリズムのパラメータ削減が可能となる。

This paper investigates the problem of controlling a linear system under possibly unbounded and degenerate noise with unknown cost functions, known as an online control problem. In contrast to the existing work, which assumes the boundedness of noise, we reveal that for convex costs, an $ \widetilde{O}(\sqrt{T}) $ regret bound can be achieved even for unbounded noise, where $ T $ denotes the time horizon. Moreover, when the costs are strongly convex, we establish an $ O({\rm poly} (\log T)) $ regret bound without the assumption that noise covariance is non-degenerate, which has been required in the literature. The key ingredient in removing the rank assumption on noise is a system transformation associated with the noise covariance. This simultaneously enables the parameter reduction of an online control algorithm.
翻訳日:2024-02-19 18:44:18 公開日:2024-02-15
# Brant-2:脳信号の基礎モデル

Brant-2: Foundation Model for Brain Signals ( http://arxiv.org/abs/2402.10251v1 )

ライセンス: Link先を確認
Zhizhang Yuan, Daoze Zhang, Junru Chen, Geifei Gu, Yang Yang(参考訳) 基本的なモデルは、大量のラベルのないデータを事前トレーニングすることで、少量のラベル付きデータを持つさまざまなアプリケーションで強力なパフォーマンスを実現する。 このようなモデルは、多数のアプリケーションシナリオを含むため、脳信号の分析に特に効果的であり、大規模なアノテーションの実行には費用がかかる。 本研究では,脳信号における最大の基礎モデルであるbrant-2を提案する。 頭蓋内神経信号のための基礎モデルであるbrantと比較すると、brant-2はデータの変異やモデリングスケールに対する堅牢性を示すだけでなく、より広い範囲の脳神経データにも適用できる。 幅広いタスクを実験することで、brant-2は脳信号の様々な応用シナリオに適応できることを実証する。 さらに分析した結果、Brant-2のスケーラビリティを明らかにし、各コンポーネントの有効性を検証し、ラベルの少ないシナリオでパフォーマンスを維持するモデルの能力を示す。 ソースコードと事前訓練されたウェイトは、https://anonymous.4open.science/r/Brant-2-5843で入手できる。

Foundational models benefit from pre-training on large amounts of unlabeled data and enable strong performance in a wide variety of applications with a small amount of labeled data. Such models can be particularly effective in analyzing brain signals, as this field encompasses numerous application scenarios, and it is costly to perform large-scale annotation. In this work, we present the largest foundation model in brain signals, Brant-2. Compared to Brant, a foundation model designed for intracranial neural signals, Brant-2 not only exhibits robustness towards data variations and modeling scales but also can be applied to a broader range of brain neural data. By experimenting on an extensive range of tasks, we demonstrate that Brant-2 is adaptive to various application scenarios in brain signals. Further analyses reveal the scalability of the Brant-2, validate each component's effectiveness, and showcase our model's ability to maintain performance in scenarios with scarce labels. The source code and pre-trained weights are available at: https://anonymous.4open.science/r/Brant-2-5843.
翻訳日:2024-02-19 18:44:02 公開日:2024-02-15
# データ駆動型監視機械学習による地球環境大気汚染濃度の予測間隔の推定

A Data-Driven Supervised Machine Learning Approach to Estimating Global Ambient Air Pollution Concentrations With Associated Prediction Intervals ( http://arxiv.org/abs/2402.10248v1 )

ライセンス: Link先を確認
Liam J Berrisford, Hugo Barbosa, Ronaldo Menezes(参考訳) グローバル環境大気汚染は、通常、空間的に疎らで均一に配置された監視ステーションのデータに依存する介入によって対処される。 これらのステーションは停電などの問題により、時間的なデータギャップに遭遇することが多い。 これに対し、スケーラブルでデータ駆動型の教師あり機械学習フレームワークを開発した。 このモデルは、時間的および空間的な測定の欠如を招き、no$_2$, o$_3$, pm$_{10}$, pm$_{2.5}$, so$_2$を含む汚染物質の包括的なデータセットを生成するように設計されている。 データセットは、毎時0.25$^{\circ}$の細かな粒度を持ち、各推定値の予測間隔を伴っており、下流評価のための屋外大気汚染データに依存する幅広い利害関係者に対応している。 これによりより詳細な研究が可能になる。 さらに、モデルの性能を様々な地域にわたって検討し、モデル精度をさらに高めるため、将来の監視ステーションの戦略的配置に関する洞察と勧告を提供する。

Global ambient air pollution, a transboundary challenge, is typically addressed through interventions relying on data from spatially sparse and heterogeneously placed monitoring stations. These stations often encounter temporal data gaps due to issues such as power outages. In response, we have developed a scalable, data-driven, supervised machine learning framework. This model is designed to impute missing temporal and spatial measurements, thereby generating a comprehensive dataset for pollutants including NO$_2$, O$_3$, PM$_{10}$, PM$_{2.5}$, and SO$_2$. The dataset, with a fine granularity of 0.25$^{\circ}$ at hourly intervals and accompanied by prediction intervals for each estimate, caters to a wide range of stakeholders relying on outdoor air pollution data for downstream assessments. This enables more detailed studies. Additionally, the model's performance across various geographical locations is examined, providing insights and recommendations for strategic placement of future monitoring stations to further enhance the model's accuracy.
翻訳日:2024-02-19 18:43:45 公開日:2024-02-15
# 容量結合型トランスモンキャビティシステムにおける絡み合い発生

Entanglement generation in capacitively coupled Transmon-cavity system ( http://arxiv.org/abs/2402.10244v1 )

ライセンス: Link先を確認
Jian-Zhuang Wu, Lian-E Lu, Xin-Yu Zhao, Yong-Hong Ma(参考訳) 本稿では,トランスモン量子ビットの高エネルギー準位を考慮し,トランスモン量子ビットと単一モード空洞との間の連続的な変動絡みの発生について検討する。 キャビティ量子力学の枠組みに基づいて, 絡み合いの発生は, 駆動場強度, 結合強度, 空洞場周波数, キュービット周波数に依存することを示す。 その結果,これらのパラメータを適切に調整することで,強い絡み合いが生じ得ることがわかった。 本論文で提示された結果は、キャビティqedシステムにおける量子エンタングルメント生成をよりよく理解し、量子情報処理におけるさらなる研究のための新たな展望を提供するかもしれない。

In this paper, the higher energy levels of the transmon qubit are taken into consideration to investigate the continuous variable entanglement generation between the transmon qubit and the single-mode cavity. Based on the framework of cavity quantum electrodynamics, we show the entanglement generation depends on the the driving field intensity, coupling strength, cavity field frequency, and qubit frequency. The numerical results show that strong entanglement can be generated by properly tuning these parameters. It is our hope that the results presented in this paper may lead to a better understanding of quantum entanglement generation in cavity QED system and provide new perspectives for further research in quantum information processing.
翻訳日:2024-02-19 18:43:27 公開日:2024-02-15
# 大規模言語モデルのためのマシンアンラーニングの再考

Rethinking Machine Unlearning for Large Language Models ( http://arxiv.org/abs/2402.08787v2 )

ライセンス: Link先を確認
Sijia Liu, Yuanshun Yao, Jinghan Jia, Stephen Casper, Nathalie Baracaldo, Peter Hase, Xiaojun Xu, Yuguang Yao, Hang Li, Kush R. Varshney, Mohit Bansal, Sanmi Koyejo, Yang Liu(参考訳) LLMアンラーニングと呼ばれる大規模言語モデル(LLM)の領域における機械学習(MU)について検討する。 このイニシアチブは、本質的な知識生成の完全性を維持しつつ、因果関係のない情報に影響を与えないように、望ましくないデータの影響(機密情報や違法情報など)と関連するモデル機能を排除することを目的としている。 我々は、LLMのライフサイクル管理において、LLMのアンラーニングが重要な要素となり、安全で安全で信頼性の高いだけでなく、完全な再トレーニングを必要とせずに、資源効率の高い生成AIを開発する上で、不可欠な基盤となる可能性があると想定している。 概念的定式化や方法論,メトリクス,アプリケーションから,LLMにおける未学習の風景をナビゲートする。 特に,未学習スコープやデータモデルインタラクション,多面的有効性評価など,既存のllmアンラーニング研究の見過ごされがちな側面を強調する。 また,llmアンラーニングとモデル編集,影響関数,モデル説明,敵対的トレーニング,強化学習といった関連分野との関係についても考察した。 さらに,llmアンラーニングのための効果的な評価フレームワークを概説し,著作権保護やプライバシー保護,社会技術的被害軽減への応用について検討する。

We explore machine unlearning (MU) in the domain of large language models (LLMs), referred to as LLM unlearning. This initiative aims to eliminate undesirable data influence (e.g., sensitive or illegal information) and the associated model capabilities, while maintaining the integrity of essential knowledge generation and not affecting causally unrelated information. We envision LLM unlearning becoming a pivotal element in the life-cycle management of LLMs, potentially standing as an essential foundation for developing generative AI that is not only safe, secure, and trustworthy, but also resource-efficient without the need of full retraining. We navigate the unlearning landscape in LLMs from conceptual formulation, methodologies, metrics, and applications. In particular, we highlight the often-overlooked aspects of existing LLM unlearning research, e.g., unlearning scope, data-model interaction, and multifaceted efficacy assessment. We also draw connections between LLM unlearning and related areas such as model editing, influence functions, model explanation, adversarial training, and reinforcement learning. Furthermore, we outline an effective assessment framework for LLM unlearning and explore its applications in copyright and privacy safeguards and sociotechnical harm reduction.
翻訳日:2024-02-19 18:41:30 公開日:2024-02-15
# BECoTTA: 連続的なテスト時間適応のためのエキスパートの入力依存オンラインブレンディング

BECoTTA: Input-dependent Online Blending of Experts for Continual Test-time Adaptation ( http://arxiv.org/abs/2402.08712v2 )

ライセンス: Link先を確認
Daeun Lee, Jaehong Yoon, Sung Ju Hwang(参考訳) 連続テスト時間適応(CTTA)は、学習済みの知識を維持しながら、継続的に見えない領域に効率的に適応するために必要である。 しかし、CTTAの進歩にもかかわらず、忘れられた適応トレードオフと効率性はまだ解明されていない。 さらに、現在のCTTAシナリオは、現実世界のドメインがシームレスに変更されたとしても、相容れない状況のみを前提としている。 そこで本稿では,CTTAの入力依存型かつ効率的なフレームワークであるBECoTTAを提案する。 2つのコアコンポーネントを含むMixture-of-Domain Low-rank Experts (MoDE)を提案する。 (i)複数のドメインルータでドメイン適応知識を選択的に取得するのに役立つドメイン適応ルーティング (ii)各ドメインとエキスパート間の依存性を最大化するために、ドメイン専門家による相乗効果の損失。 提案手法は,訓練可能なパラメータを約98%少なく抑えながら,複数のCTTAシナリオより優れていた。 また,エキスパートの構築,ドメイン適応型エキスパートの効果,可視化などの手法の分析を行った。

Continual Test Time Adaptation (CTTA) is required to adapt efficiently to continuous unseen domains while retaining previously learned knowledge. However, despite the progress of CTTA, forgetting-adaptation trade-offs and efficiency are still unexplored. Moreover, current CTTA scenarios assume only the disjoint situation, even though real-world domains are seamlessly changed. To tackle these challenges, this paper proposes BECoTTA, an input-dependent yet efficient framework for CTTA. We propose Mixture-of-Domain Low-rank Experts (MoDE) that contains two core components: (i) Domain-Adaptive Routing, which aids in selectively capturing the domain-adaptive knowledge with multiple domain routers, and (ii) Domain-Expert Synergy Loss to maximize the dependency between each domain and expert. We validate our method outperforms multiple CTTA scenarios including disjoint and gradual domain shits, while only requiring ~98% fewer trainable parameters. We also provide analyses of our method, including the construction of experts, the effect of domain-adaptive experts, and visualizations.
翻訳日:2024-02-19 18:41:07 公開日:2024-02-15
# 多経路環境における離散確率推論の制御

Discrete Probabilistic Inference as Control in Multi-path Environments ( http://arxiv.org/abs/2402.10309v1 )

ライセンス: Link先を確認
Tristan Deleu, Padideh Nouri, Nikolay Malkin, Doina Precup, Yoshua Bengio(参考訳) 我々は, 離散分布からサンプリングする問題を逐次的決定問題と考え, 対象が事前定義された報酬に比例して, この逐次過程の最後にサンプリングされるような確率的方針を求めることを目的としている。 最大エントロピー強化学習(MaxEnt RL)を用いてこの問題を解けるが、一般に、最適ポリシーによって誘導される状態の分布は、同じオブジェクトを生成する複数の方法が存在する場合に偏りが生じることが示されている。 この問題に対処するために、ジェネレーティブフローネットワーク(GFlowNets)は、マルコフ決定プロセス(MDP)全体にわたるフローの保存を概ね実施することにより、報酬に比例するオブジェクトをサンプリングする確率的ポリシーを学習する。 本稿では,MDP の構造に関わらず,最適な MaxEnt RL ポリシによって誘導される限界分布が元の報酬に比例することを保証するため,報酬を補正する最近の手法を拡張した。 また、GFlowNetの文献で見られるフローマッチングの目的が、精度の高いMaxEnt RLアルゴリズムと等価であることも証明した。 最後に,複数のMaxEnt RLおよびGFlowNetアルゴリズムの性能を離散分布からのサンプリングを含む複数の問題に対して実験的に検討した。

We consider the problem of sampling from a discrete and structured distribution as a sequential decision problem, where the objective is to find a stochastic policy such that objects are sampled at the end of this sequential process proportionally to some predefined reward. While we could use maximum entropy Reinforcement Learning (MaxEnt RL) to solve this problem for some distributions, it has been shown that in general, the distribution over states induced by the optimal policy may be biased in cases where there are multiple ways to generate the same object. To address this issue, Generative Flow Networks (GFlowNets) learn a stochastic policy that samples objects proportionally to their reward by approximately enforcing a conservation of flows across the whole Markov Decision Process (MDP). In this paper, we extend recent methods correcting the reward in order to guarantee that the marginal distribution induced by the optimal MaxEnt RL policy is proportional to the original reward, regardless of the structure of the underlying MDP. We also prove that some flow-matching objectives found in the GFlowNet literature are in fact equivalent to well-established MaxEnt RL algorithms with a corrected reward. Finally, we study empirically the performance of multiple MaxEnt RL and GFlowNet algorithms on multiple problems involving sampling from discrete distributions.
翻訳日:2024-02-19 18:33:35 公開日:2024-02-15
# 一級連続異常検出モデルに対するバックドア攻撃

Backdoor Attack against One-Class Sequential Anomaly Detection Models ( http://arxiv.org/abs/2402.10283v1 )

ライセンス: Link先を確認
He Cheng and Shuhan Yuan(参考訳) シーケンシャルデータの深い異常検出は、幅広いアプリケーションシナリオのために大きな注目を集めている。 しかし、ディープラーニングベースのモデルは、バックドア攻撃に対する脆弱性という、重要なセキュリティ脅威に直面している。 本稿では,新たなバックドア攻撃戦略を提案することによって,深部連続異常検出モデルを提案する。 攻撃アプローチはトリガー生成とバックドア注入の2つの主要なステップからなる。 トリガー生成は、摂動サンプルがまだ正常である良性標準データから摂動サンプルを作成することによって、知覚不能なトリガーを誘導する。 バックドアインジェクションは、バックドアトリガーを適切に注入して、トリガーのあるサンプルのみのモデルを構成することである。 実験により,2つの確立された1クラス異常検出モデルにバックドアを注入することにより,攻撃戦略の有効性を実証した。

Deep anomaly detection on sequential data has garnered significant attention due to the wide application scenarios. However, deep learning-based models face a critical security threat - their vulnerability to backdoor attacks. In this paper, we explore compromising deep sequential anomaly detection models by proposing a novel backdoor attack strategy. The attack approach comprises two primary steps, trigger generation and backdoor injection. Trigger generation is to derive imperceptible triggers by crafting perturbed samples from the benign normal data, of which the perturbed samples are still normal. The backdoor injection is to properly inject the backdoor triggers to comprise the model only for the samples with triggers. The experimental results demonstrate the effectiveness of our proposed attack strategy by injecting backdoors on two well-established one-class anomaly detection models.
翻訳日:2024-02-19 18:33:12 公開日:2024-02-15
# 媒介者フィードバックを有する帯域に対する情報容量レグレクト境界

Information Capacity Regret Bounds for Bandits with Mediator Feedback ( http://arxiv.org/abs/2402.10282v1 )

ライセンス: Link先を確認
Khaled Eldowa, Nicol\`o Cesa-Bianchi, Alberto Maria Metelli, Marcello Restelli(参考訳) 本研究は、決定セットが複数のポリシーで構成され、それぞれが共通の結果空間上の確率分布に関連付けられるバンディットゲームである仲介者フィードバック問題に対処する。 方針を選択すると、学習者はその分布からサンプリングされた結果を観察し、現在のラウンドにおいてこの結果に割り当てられた損失を負う。 我々は,政策セットの複雑さに対する情報理論尺度として,政策セットの容量を導入する。 古典的なEXP4アルゴリズムを応用し、逆数と確率的設定の両方におけるポリシーセットの容量に応じて、新たな後悔境界を提供する。 ポリシセットファミリの選択については、キャパシティと同様にスケーリングすることで、下限にほぼ一致することを証明します。 また, 方針の分布がラウンドごとに異なる場合も考慮し, 関連するバンディットに専門家のアドバイス問題を加え, 先行する結果から改善する。 さらに, 線形バンディットフィードバックでは, ポリシー間の類似性を利用した場合, 一般には不可能であることを示す下界を証明した。 最後に、全情報型については、ポリシーセットの情報半径に制限されたスケーリングを提供する。

This work addresses the mediator feedback problem, a bandit game where the decision set consists of a number of policies, each associated with a probability distribution over a common space of outcomes. Upon choosing a policy, the learner observes an outcome sampled from its distribution and incurs the loss assigned to this outcome in the present round. We introduce the policy set capacity as an information-theoretic measure for the complexity of the policy set. Adopting the classical EXP4 algorithm, we provide new regret bounds depending on the policy set capacity in both the adversarial and the stochastic settings. For a selection of policy set families, we prove nearly-matching lower bounds, scaling similarly with the capacity. We also consider the case when the policies' distributions can vary between rounds, thus addressing the related bandits with expert advice problem, which we improve upon its prior results. Additionally, we prove a lower bound showing that exploiting the similarity between the policies is not possible in general under linear bandit feedback. Finally, for a full-information variant, we provide a regret bound scaling with the information radius of the policy set.
翻訳日:2024-02-19 18:32:58 公開日:2024-02-15
# susfl: 持続可能スマートファームのためのエネルギアウェアフェデレート学習に基づくモニタリング

SusFL: Energy-Aware Federated Learning-based Monitoring for Sustainable Smart Farms ( http://arxiv.org/abs/2402.10280v1 )

ライセンス: Link先を確認
Dian Chen, Paul Yang, Ing-Ray Chen, Dong Sam Ha, Jin-Hee Cho(参考訳) 本研究では,太陽センサのエネルギーレベル変動による不整合性健康モニタリングの課題に対処するため,持続可能なスマート農業のための新しいエネルギー認識型フェデレーション学習システムSusFLを提案する。 このシステムは、牛などの動物に、raspberry piなどの計算能力を備えたソーラーセンサーを供給し、健康データに基づくローカルなディープラーニングモデルを訓練する。 これらのセンサーは定期的にLong Range(LoRa)ゲートウェイを更新し、無線センサーネットワーク(WSN)を形成してマスト炎などの疾患を検出する。 提案するsusflシステムは,インテリジェントクライアント選択のためのゲーム理論の概念であるメカニズム設計を取り入れ,エネルギー使用を最小限に抑えながら監視品質を最適化する。 この戦略は、FL運用を妨害する可能性のあるデータ中毒やプライバシーの脅威を含む敵攻撃に対するシステムの持続可能性とレジリエンスを保証する。 実時間データセットを用いた広範囲な比較分析により,我々のFLに基づくモニタリングシステムは,予測精度,運用効率,システム信頼性(障害間平均時間,MCBF),社会福祉の最大化など,既存の手法を著しく上回ることを示した。 本研究は,スマートファームにおける有効かつ持続的な動物健康モニタリングシステムの有用性を検証するものである。 実験結果から,SusFLはエネルギー消費の10-%の削減,社会福祉の15-%の上昇,平均時間間故障(MTBF)の34-%の上昇,世界モデルの予測精度の限界的な上昇など,システム性能を著しく向上させることが示された。

We propose a novel energy-aware federated learning (FL)-based system, namely SusFL, for sustainable smart farming to address the challenge of inconsistent health monitoring due to fluctuating energy levels of solar sensors. This system equips animals, such as cattle, with solar sensors with computational capabilities, including Raspberry Pis, to train a local deep-learning model on health data. These sensors periodically update Long Range (LoRa) gateways, forming a wireless sensor network (WSN) to detect diseases like mastitis. Our proposed SusFL system incorporates mechanism design, a game theory concept, for intelligent client selection to optimize monitoring quality while minimizing energy use. This strategy ensures the system's sustainability and resilience against adversarial attacks, including data poisoning and privacy threats, that could disrupt FL operations. Through extensive comparative analysis using real-time datasets, we demonstrate that our FL-based monitoring system significantly outperforms existing methods in prediction accuracy, operational efficiency, system reliability (i.e., mean time between failures or MTBF), and social welfare maximization by the mechanism designer. Our findings validate the superiority of our system for effective and sustainable animal health monitoring in smart farms. The experimental results show that SusFL significantly improves system performance, including a $10\%$ reduction in energy consumption, a $15\%$ increase in social welfare, and a $34\%$ rise in Mean Time Between Failures (MTBF), alongside a marginal increase in the global model's prediction accuracy.
翻訳日:2024-02-19 18:32:40 公開日:2024-02-15
# 核ハミルトニアンの地中準備のための爆発対称性

Exploiting symmetries in nuclear Hamiltonians for ground state preparation ( http://arxiv.org/abs/2402.10277v1 )

ライセンス: Link先を確認
Joe Gibbs, Zo\"e Holmes, and Paul Stevenson(参考訳) リプキンとアガシのモデルは、量子シミュレーションに自然なテストベッドを提供する単純な核モデルである。 従来の研究は、これらのモデルの基底状態を見つけるための変分量子固有解法(VQE)の適合性を検討した。 VQE が実現可能であれば、問題の対称性の性質を考慮し、巧妙な初期化戦略を使用する ans\"{a}tze にインスパイアされた問題が必要であるという認識が高まっている。 ここでは,リプキンモデルとアガシモデルに注目して,核物理学的な基底状態問題の文脈でこれを行う方法について検討する。 我々は、原子核問題の基底状態を学ぶための新しい古典的だが量子的なアプローチの可能性を明らかにするために、我々の観察をさらに活用する。

The Lipkin and Agassi models are simplified nuclear models that provide natural test beds for quantum simulation methods. Prior work has investigated the suitability of the Variational Quantum Eigensolver (VQE) to find the ground state of these models. There is a growing awareness that if VQE is to prove viable, we will need problem inspired ans\"{a}tze that take into account the symmetry properties of the problem and use clever initialization strategies. Here, by focusing on the Lipkin and Agassi models, we investigate how to do this in the context of nuclear physics ground state problems. We further use our observations to discus the potential of new classical, but quantum-inspired, approaches to learning ground states in nuclear problems.
翻訳日:2024-02-19 18:32:08 公開日:2024-02-15
# 直流電流可変超伝導マイクロ波空洞を用いたモノリシック3次元ナノ収縮の電流相関係の抽出

Extracting the current-phase-relation of a monolithic three-dimensional nano-constriction using a DC-current-tunable superconducting microwave cavity ( http://arxiv.org/abs/2402.10276v1 )

ライセンス: Link先を確認
Kevin Uhl, Daniel Hackenbeck, Dieter Koelle, Reinhold Kleiner, and Daniel Bothner(参考訳) ジョセフソントンネル接合やキネティックインダクタンスナノワイヤなどの非線形要素を持つ超伝導回路は、マイクロ波量子および超伝導センシング技術のためのワークホースである。 高温・強磁場で動作可能なデバイスでは, 非線形素子としてのナノ拘束が近年, 厳しく研究されている。 しかし、制約は従来のジョセフソントンネル接合よりも理解されにくく、現在の位相関係(CPR)はデバイス設計において非常に重要であるが、予測が難しい。 ここでは、モノリシックに集積されたネオンイオンビームパターンの3次元ナノ収縮を有するニオブマイクロ波空洞について述べる。 設計により、直流電流可変マイクロ波回路を取得し、バイアス電流依存性の収縮特性が共振器共鳴に与える影響を特徴づける。 これらの実験結果に基づいて,ナノ収縮のCPRを再構築する。 最後に、デバイスのケラー非線形性、多くの高ダイナミックレンジ応用に重要なパラメータ、およびcprの第2および第3導関数の実験プローブについて論じる。 本プラットフォームは、マイクロ波回路に集積された非線形要素を包括的に特徴付けるための有用な方法を提供し、現在のセンサ、ハイブリッド量子システム、パラメトリック増幅器に注目する。 さらに,ナノファブリケードによる3次元拘束の理解を深めることができた。

Superconducting circuits with nonlinear elements such as Josephson tunnel junctions or kinetic inductance nanowires are the workhorse for microwave quantum and superconducting sensing technologies. For devices, which can be operated at high temperatures and large magnetic fields, nano-constrictions as nonlinear elements are recently under intense investigation. Constrictions, however, are far less understood than conventional Josephson tunnel junctions, and their current-phase-relationships (CPRs) -- although highly important for device design -- are hard to predict. Here, we present a niobium microwave cavity with a monolithically integrated, neon-ion-beam patterned three-dimensional (3D) nano-constriction. By design, we obtain a DC-current-tunable microwave circuit and characterize how the bias-current-dependent constriction properties impact the cavity resonance. Based on the results of these experiments, we reconstruct the CPR of the nanoconstriction. Finally, we discuss the Kerr nonlinearity of the device, a parameter important for many high-dynamic-range applications and an experimental probe for the second and third derivatives of the CPR. Our platform provides a useful method to comprehensively characterize nonlinear elements integrated in microwave circuits and could be of interest for current sensors, hybrid quantum systems and parametric amplifiers. Our findings furthermore contribute to a better understanding of nano-fabricated 3D constrictions.
翻訳日:2024-02-19 18:31:54 公開日:2024-02-15
# 構造フォトニック浴中の巨大原子を用いた量子光学

Quantum optics with giant atoms in a structured photonic bath ( http://arxiv.org/abs/2402.10275v1 )

ライセンス: Link先を確認
L. Leonforte, X. Sun, D. Valenti, B. Spagnolo, F. Illuminati, A. Carollo, F. Ciccarello(参考訳) 我々は、巨大原子による量子光学問題、すなわち量子エミッタを結合した非局所的に、任意の次元の構造化フォトニック浴(典型的には格子)に取り組むための一般的な枠組みを提案する。 この理論は、グリーン関数、原子-光子結合状態(BSs)、集合マスター方程式、デコヒーレンスフリーハミルトニアン(DFHs)の計算と一般的な性質を含み、巨大原子が架空の位置にある通常の原子と見なされる形式主義に支えられている。 主要な用途として, フォトニックバスの構造や寸法に関わらず, フォトニック連続体内外にも適用可能な巨大原子のdfhsを予測・設計するための一般的な基準を初めて提示する。 これは正方格子やフォトニックグラフェンのような2d浴槽で新しいdfhを示すために用いられる。

We present a general framework to tackle quantum optics problems with giant atoms, i.e. quantum emitters each coupled {\it non-locally} to a structured photonic bath (typically a lattice) of any dimension. The theory encompasses the calculation and general properties of Green's functions, atom-photon bound states (BSs), collective master equations and decoherence-free Hamiltonians (DFHs), and is underpinned by a formalism where a giant atom is formally viewed as a normal atom lying at a fictitious location. As a major application, we provide for the first time a general criterion to predict/engineer DFHs of giant atoms, which can be applied both in and out of the photonic continuum and regardless of the structure or dimensionality of the photonic bath. This is used to show novel DFHs in 2D baths such as a square lattice and photonic graphene.
翻訳日:2024-02-19 18:31:32 公開日:2024-02-15
# 共鳴計数によるランダム行列の有限サイズ効果の研究

Investigating finite-size effects in random matrices by counting resonances ( http://arxiv.org/abs/2402.10271v1 )

ライセンス: Link先を確認
Anton Kutlin, Carlo Vanoni(参考訳) 共鳴カウントはランダム行列理論とアンダーソン局在法において直感的で広く使われているツールである。 その利点は単純さであり、原理的には任意のランダム行列アンサンブルに容易に適用できる。 欠点として、共鳴の概念は不定義であり、'共振数'は、参加エントロピー、フラクタル次元、ギャップ比(rパラメータ)のような一般に使用される物理観測可能な任意の物理観測値への直接マッピングを持たず、この方法の予測力を熱力学的限界に制限し、アンダーソン局在遷移の特定にのみ使用できる。 本研究では, 共振の概念を再評価し, 測定可能な量と関連づけ, 有限次元系への今後の応用の基礎を構築した。

Resonance counting is an intuitive and widely used tool in Random Matrix Theory and Anderson Localization. Its undoubted advantage is its simplicity: in principle, it is easily applicable to any random matrix ensemble. On the downside, the notion of resonance is ill-defined, and the `number of resonances' does not have a direct mapping to any commonly used physical observable like the participation entropy, the fractal dimensions, or the gap ratios (r-parameter), restricting the method's predictive power to the thermodynamic limit only where it can be used for locating the Anderson localization transition. In this work, we reevaluate the notion of resonances and relate it to measurable quantities, building a foundation for the future application of the method to finite-size systems.
翻訳日:2024-02-19 18:31:14 公開日:2024-02-15
# 量子参照フレーム、イベントの局所化、量子ホール引数などの識別は無意味である

Identification is Pointless: Quantum Reference Frames, Localisation of Events, and the Quantum Hole Argument ( http://arxiv.org/abs/2402.10267v1 )

ライセンス: Link先を確認
Viktoria Kabel, Anne-Catherine de la Hamette, Luca Apadula, Carlo Cepollaro, Henrique Gomes, Jeremy Butterfield, \v{C}aslav Brukner(参考訳) 量子参照フレーム(QRFs)の研究は、物理系の記述において我々が明示的にまたは暗黙的に使用する参照フレームの量子的性質を考慮するという考え方に動機づけられている。 古典的な参照フレームと同様に、QRFは時間、位置、運動量、スピンリレーショナルといった物理量を定義するのに使うことができる。 古典的類似物とは異なり、重ね合わせや絡み合いの概念を相対化する。 ここでは、重ね合わせと絡み合わせのフレーム依存性に関する新しい説明を、重ね合わせにおいて異なる枝間でどのように構成や位置が特定されるかという問題に遡る。 対称性が存在する場合、系が'同じ'か'異なる'構成であるかは、QRFの選択に依存することを示す。 したがって、同性や差分、結果として重ね合わせや絡み合いはそれらの絶対的な意味を損なう。 これらのアイデアを重ね合わせの半古典時空に適用し、4つのスカラー場の一致を利用して異なる分岐の時空点間の比較写像を構築する。 これにより、ある事象が重ね合わせされた時空の「同じ」点または「異なる」点にあるかどうかを判断することができる。 この特徴はQRFの選択に依存するため、イベントの局所化は固有の性質と見なすべきではないと論じる。 これは以前、QRFの変更がBMV提案のような干渉実験に経験的な結果をもたらす可能性があるという懸念の声を和らげた。 さらに、事象の数は不定因数順序の平坦な時空実装と湾曲した時空実装の両方で等しいことを意味する。 我々は「量子ホール論」をアインシュタインのホール論の一般化として結論付け、時空点だけでなく重ね合わせにおけるそれらの識別は絶対的な物理的意味を失うと主張した。

The study of quantum reference frames (QRFs) is motivated by the idea of taking into account the quantum properties of the reference frames that we use, explicitly or implicitly, in our description of physical systems. Like a classical reference frame, a QRF can be used to define physical quantities such as time, position, momentum, and spin relationally. Unlike its classical analogue, it relativises the notions of superposition and entanglement. Here, we provide a novel explanation for the frame-dependence of superposition and entanglement by tracing it back to the question of how configurations or locations are identified across different branches in superposition. We show that, in the presence of symmetries, whether a system is in 'the same' or 'different' configurations across the branches depends on the choice of QRF. Thus, sameness and difference-and, as a result, superposition and entanglement-lose their absolute meaning. We apply these ideas to semi-classical spacetimes in superposition and use coincidences of four scalar fields to construct a comparison map between the spacetime points in the different branches. This allows us to determine whether a given event is located at 'the same' or 'different' points in the superposed spacetimes. Since this feature depends on the choice of QRF, we argue that the localisation of an event should not be seen as an inherent property. This alleviates previously voiced concerns that QRF changes could have empirical consequences for interference experiments, such as the BMV proposal. Moreover, it implies that the number of events is equal in both the flat and the curved spacetime implementations of indefinite causal order. We conclude with the 'quantum hole argument' as a generalisation of Einstein's hole argument, arguing that not just spacetime points but also their identification across a superposition lose their absolute physical meaning.
翻訳日:2024-02-19 18:30:58 公開日:2024-02-15
# 大N配位におけるSU(3)格子型ヤンミルの理論の量子シミュレーション

Quantum Simulation of SU(3) Lattice Yang Mills Theory at Leading Order in Large N ( http://arxiv.org/abs/2402.10265v1 )

ライセンス: Link先を確認
Anthony N. Ciavarella, Christian W. Bauer(参考訳) SU(3)ゲージ理論のハミルトン格子定式化は、QCDの非摂動力学の量子シミュレーションの可能性を開く。 ゲージ不変なヒルベルト空間をプラーペット自由度でパラメトリゼーションすることにより、ヒルベルト空間と相互作用が n_c の逆力でどのように拡張できるかを示す。 この展開の先行順序において、ハミルトニアンはヒルベルト空間の必要サイズと関連する相互作用のタイプの両方において劇的に単純化される。 局所エネルギー状態の観点で結果のヒルベルト空間の切り離しを加えることで、u(3)ゲージ場をクォービットおよびクォートリット上で単純に表現できる明示的な構成を与える。 これらの切り離しの限界はモンテカルロ法を用いて探索される。 この定式化により、CNOT 深さ 113 の ibm_torino 上の 5\times5$ と 8\times8$ の格子上で SU(3) 格子ゲージ理論のリアルタイムダイナミクスをシミュレーションすることができる。

A Hamiltonian lattice formulation of SU(3) gauge theory opens the possibility for quantum simulations of the non-perturbative dynamics of QCD. By parametrizing the gauge invariant Hilbert space in terms of plaquette degrees of freedom, we show how the Hilbert space and interactions can be expanded in inverse powers of N_c. At leading order in this expansion, the Hamiltonian simplifies dramatically, both in the required size of the Hilbert space as well as the type of interactions involved. Adding a truncation of the resulting Hilbert space in terms of local energy states we give explicit constructions that allow simple representations of SU(3) gauge fields on qubits and qutrits. The limitations of these truncations are explored using Monte Carlo methods. This formulation allows a simulation of the real time dynamics of a SU(3) lattice gauge theory on a $5\times5$ and $8\times8$ lattice on ibm_torino with a CNOT depth of 113.
翻訳日:2024-02-19 18:30:26 公開日:2024-02-15
# 行列モデルからの明示的な大きな n$ von neumann 代数

Explicit large $N$ von Neumann algebras from matrix models ( http://arxiv.org/abs/2402.10262v1 )

ライセンス: Link先を確認
Elliott Gesteau and Leonardo Santilli(参考訳) 我々は、大きな$N$極限において創発型III$_1$フォンノイマン代数をもたらす量子力学系の大きな族を構築する。 それらの分割関数は、様々なゲージ理論の研究に現れる行列積分である。 これらの系における実時間有限温度相関関数を計算し、それらは大きな n$ で創発的なタイプ iii$_1$ von neumann 代数によって記述されることを示す。 この代数の基礎となるスペクトル密度は、離散行列モデルの固有値密度の観点から閉じた形で計算される。 さらに, ハゲドルン遷移を持つ系に対して, これらの理論を体系的に促進する方法を説明し, タイプ iii$_1$ 代数がハゲドルン温度より上にのみ現れることを示す。 最後に、量子力学の状態空間とカラビ-ヤウ多様体の間の対応を例で経験的に観察する。

We construct a large family of quantum mechanical systems that give rise to an emergent type III$_1$ von Neumann algebra in the large $N$ limit. Their partition functions are matrix integrals that appear in the study of various gauge theories. We calculate the real-time, finite temperature correlation functions in these systems and show that they are described by an emergent type III$_1$ von Neumann algebra at large $N$. The spectral density underlying this algebra is computed in closed form in terms of the eigenvalue density of a discrete matrix model. Furthermore, we explain how to systematically promote these theories to systems with a Hagedorn transition, and show that a type III$_1$ algebra only emerges above the Hagedorn temperature. Finally, we empirically observe in examples a correspondence between the space of states of the quantum mechanics and Calabi--Yau manifolds.
翻訳日:2024-02-19 18:30:12 公開日:2024-02-15
# 可積分散逸性Bose-HubbardモデルにおけるLiouvillian皮膚効果と分断凝縮物

Liouvillian skin effects and fragmented condensates in an integrable dissipative Bose-Hubbard model ( http://arxiv.org/abs/2402.10261v1 )

ライセンス: Link先を確認
Christopher Ekman, Emil J. Bergholtz(参考訳) 強い相互作用を持つ非平衡系は、非常に基本的な関心を持つが、その固有の複雑さは分析を困難にしている。 可解性を回避したボース・ハバードモデルの力学は、ホッピング振幅に一致する速度に調整された損失が存在する場合、任意の相互作用強度で正確に解くことができる。 驚くべきことに、対応するリウヴィリアンの完全可解性と関連する有効な非エルミート・ハミルトニアンの可積分性は、乱れと総称境界条件の付加によって生き残る。 ベーテ・アンサッツの解を分析することで、弱い相互作用がシステムの質的特徴を変化させ、非エルミートモット・スキン効果、障害誘発局在、高度に縮退した例外点、断片化された凝縮のボースガラス様相を特徴とする複雑な動的位相図が導かれることが判明した。 寒冷原子を用いたモデルの実現について論じる。

Strongly interacting non-equilibrium systems are of great fundamental interest, yet their inherent complexity make then notoriously hard to analyze. We demonstrate that the dynamics of the Bose-Hubbard model, which by itself evades solvability, can be solved exactly at any interaction strength in the presence of loss tuned to a rate matching the hopping amplitude. Remarkably, the full solvability of the corresponding Liouvillian, and the integrability of the pertinent effective non-Hermitian Hamiltonian, survives the addition of disorder and generic boundary conditions. By analyzing the Bethe ansatz solutions we find that even weak interactions change the qualitative features of the system, leading to an intricate dynamical phase diagram featuring non-Hermitian Mott-skin effects, disorder induced localization, highly degenerate exceptional points, and a Bose glass-like phase of fragmented condensates. We discuss realistic implementations of this model with cold atoms.
翻訳日:2024-02-19 18:29:55 公開日:2024-02-15
# エンプティ・ジェイルブレイクのためのストロングREJECT

A StrongREJECT for Empty Jailbreaks ( http://arxiv.org/abs/2402.10260v1 )

ライセンス: Link先を確認
Alexandra Souly, Qingyuan Lu, Dillon Bowen, Tu Trinh, Elvis Hsieh, Sana Pandey, Pieter Abbeel, Justin Svegliato, Scott Emmons, Olivia Watkins, Sam Toyer(参考訳) 大規模言語モデル(LLM)の台頭は、モデルを悪意を持って使用できるようにする"jailbreaks"の存在に注意を向けている。 しかし、ジェイルブレイクの深刻度を測定する標準的なベンチマークは存在せず、ジェイルブレイク文書の作成者は自分自身で作成できる。 これらのベンチマークにはあいまいな質問や難解な質問が含まれ、低品質モデル応答の誤用可能性を過小評価する偏りのある評価基準が用いられることが多い。 いくつかのジェイルブレイク技術は,MMLUにおけるGPT-4のゼロショット性能を大幅に低下させることで,モデル応答の質を低下させることによって問題を悪化させる。 ジェイルブレイクは、“検閲されていない”オープンソースモデルから有害な反応を引き出すのを難しくする。 我々は,より高品質な質問集合とより正確な応答評価アルゴリズムを用いて,効果的なジェイルブレイクと非効率的なジェイルブレイクを区別する新しいベンチマークである strongreject を提案する。 特に既存のベンチマークにおけるジェイルブレイク性能の過大評価に最も寄与する低品質の応答について,人間の反応品質と全体的なジェイルブレイク効果の判断によりよく対応できることを示す。 コードとデータはhttps://github.com/alexandrasouly/strongrejectでリリースします。

The rise of large language models (LLMs) has drawn attention to the existence of "jailbreaks" that allow the models to be used maliciously. However, there is no standard benchmark for measuring the severity of a jailbreak, leaving authors of jailbreak papers to create their own. We show that these benchmarks often include vague or unanswerable questions and use grading criteria that are biased towards overestimating the misuse potential of low-quality model responses. Some jailbreak techniques make the problem worse by decreasing the quality of model responses even on benign questions: we show that several jailbreaking techniques substantially reduce the zero-shot performance of GPT-4 on MMLU. Jailbreaks can also make it harder to elicit harmful responses from an "uncensored" open-source model. We present a new benchmark, StrongREJECT, which better discriminates between effective and ineffective jailbreaks by using a higher-quality question set and a more accurate response grading algorithm. We show that our new grading scheme better accords with human judgment of response quality and overall jailbreak effectiveness, especially on the sort of low-quality responses that contribute the most to over-estimation of jailbreak performance on existing benchmarks. We release our code and data at https://github.com/alexandrasouly/strongreject.
翻訳日:2024-02-19 18:29:33 公開日:2024-02-15
# gaussianobject:gaussian splattingで高品質な3dオブジェクトを得るための4つのイメージ

GaussianObject: Just Taking Four Images to Get A High-Quality 3D Object with Gaussian Splatting ( http://arxiv.org/abs/2402.10259v1 )

ライセンス: Link先を確認
Chen Yang and Sikuang Li and Jiemin Fang and Ruofan Liang and Lingxi Xie and Xiaopeng Zhang and Wei Shen and Qi Tian(参考訳) 高度にスパースなビューからの3dオブジェクトの再構築とレンダリングは、3dビジョン技術の適用を促進し、ユーザエクスペリエンスを改善する上で非常に重要である。 しかし、スパースビューの画像は、非常に限られた3D情報しか含まないため、2つの大きな課題に繋がる。 1)マッチング画像としてのマルチビュー一貫性構築の難しさは少なすぎる。 2)ビューカバレッジが不十分なため,部分的に省略あるいは高度に圧縮されたオブジェクト情報。 これらの課題に対処するために,GaussianObjectを提案する。Gaussian Splattingで3Dオブジェクトを表現・描画するフレームワークで,入力画像4枚だけで高画質を実現する。 まず,初期最適化プロセスに構造先行を明示的に注入し,多視点整合性の構築を支援し,粗い3次元ガウス表現をもたらす視覚的船体・フローター除去技術を紹介する。 次に, 拡散モデルに基づくガウス補修モデルを構築し, 省略された対象情報を補うことにより, ガウス補修モデルを構築する。 修復モデルを訓練するための画像ペアを得るための自己生成戦略を設計する。 我々のGaussianObjectは、MipNeRF360、OmniObject3D、OpenIlluminationなど、いくつかの挑戦的なデータセットで評価され、わずか4つのビューから強力な再構築結果が得られ、従来の最先端手法よりも大幅に優れている。

Reconstructing and rendering 3D objects from highly sparse views is of critical importance for promoting applications of 3D vision techniques and improving user experience. However, images from sparse views only contain very limited 3D information, leading to two significant challenges: 1) Difficulty in building multi-view consistency as images for matching are too few; 2) Partially omitted or highly compressed object information as view coverage is insufficient. To tackle these challenges, we propose GaussianObject, a framework to represent and render the 3D object with Gaussian splatting, that achieves high rendering quality with only 4 input images. We first introduce techniques of visual hull and floater elimination which explicitly inject structure priors into the initial optimization process for helping build multi-view consistency, yielding a coarse 3D Gaussian representation. Then we construct a Gaussian repair model based on diffusion models to supplement the omitted object information, where Gaussians are further refined. We design a self-generating strategy to obtain image pairs for training the repair model. Our GaussianObject is evaluated on several challenging datasets, including MipNeRF360, OmniObject3D, and OpenIllumination, achieving strong reconstruction results from only 4 views and significantly outperforming previous state-of-the-art methods.
翻訳日:2024-02-19 18:29:09 公開日:2024-02-15
# 量子ヒューリスティックスとイジングマシンの動作ベンチマーク:最適化アプリケーションにおけるパラメータ設定戦略の評価

Benchmarking the Operation of Quantum Heuristics and Ising Machines: Scoring Parameter Setting Strategies on Optimization Applications ( http://arxiv.org/abs/2402.10255v1 )

ライセンス: Link先を確認
David E. Bernal Neira, Robin Brown, Pratik Sathe, Filip Wudarski, Marco Pavone, Eleanor G. Rieffel and Davide Venturelli(参考訳) 最適化問題に対するパラメータ化確率解法の性能評価のためのガイドラインについて検討し,特に可変アルゴリズムを実行するディジタル量子プロセッサ,量子アニーリングを行うアナログプロセッサ,コヒーレントイジングマシンなど,新しいハードウェアを採用したシステムに注目した。 テスト環境で測定された所定の性能測定値の期待値の統計的解析に基礎を置くベンチマーク手法の例を示す。 特に,アルゴリズムの性能に影響を与えるパラメータの設定の必要性とコストについて論じる。 これらのパラメータの最適値は、同じターゲット問題のインスタンス間で大きく異なる可能性がある。 本稿では,様々なコンポーネントを複雑に利用するための実用的なパラメータチューニング戦略の設計,評価,可視化を容易にするオープンソースソフトウェアパッケージを提案する。 本稿では,並列テンパリングとフォトニックコヒーレント・イジング・マシン・コンピューティングのシミュレータを用いて,探索・探索トレードオフを特徴とするパラメータ設定戦略の図式ベースライン・ファミリーのスコア付けを詳細に検討する。

We discuss guidelines for evaluating the performance of parameterized stochastic solvers for optimization problems, with particular attention to systems that employ novel hardware, such as digital quantum processors running variational algorithms, analog processors performing quantum annealing, or coherent Ising Machines. We illustrate through an example a benchmarking procedure grounded in the statistical analysis of the expectation of a given performance metric measured in a test environment. In particular, we discuss the necessity and cost of setting parameters that affect the algorithm's performance. The optimal value of these parameters could vary significantly between instances of the same target problem. We present an open-source software package that facilitates the design, evaluation, and visualization of practical parameter tuning strategies for complex use of the heterogeneous components of the solver. We examine in detail an example using parallel tempering and a simulator of a photonic Coherent Ising Machine computing and display the scoring of an illustrative baseline family of parameter-setting strategies that feature an exploration-exploitation trade-off.
翻訳日:2024-02-19 18:28:43 公開日:2024-02-15
# 離散最適化がニューラルネットワークのサイズになるとき、どうすればいいのか?

What to Do When Your Discrete Optimization Is the Size of a Neural Network? ( http://arxiv.org/abs/2402.10339v1 )

ライセンス: Link先を確認
Hugo Silva and Martha White(参考訳) 多くの場合、ニューラルネットワークを使用する機械学習アプリケーションは、プルーニング、パラメータ分離に基づく連続学習、バイナリネットワークのトレーニングなど、離散的な最適化問題を解決する。 それでも、これらの離散問題は本質的に組合せ問題であり、勾配に基づく最適化には適さない。 さらに、離散的な設定で使用される古典的なアプローチは、大きなニューラルネットワークではうまくスケールしないため、科学者や経験家が別の方法に頼ることになる。 これらのうち、トップダウン情報の2つの主要な源は、モデルを良い解へと導くために使用できる: (1) 解集合の外から勾配情報を外挿する (2) 有効な解のサブセットのメンバー間の評価を比較する。 連続経路(CP)法は,前者およびモンテカルロ法(MC)法を純粋に表現し,後者を表現している。 この作業の主な目標は、両方のアプローチを比較することです。 その目的のために,まず2つのクラスを概説し,その欠点を解析的に議論する。 実験では,よりきめ細かい問題変数の制御が可能な小型のマイクロワールド実験から始めて,画像分類のためのニューラルネットワーク回帰やニューラルネットワークプルーニングなど,より大きな問題へと徐々に移行し,さらにマグニチュードベースのプルーニングと比較する。

Oftentimes, machine learning applications using neural networks involve solving discrete optimization problems, such as in pruning, parameter-isolation-based continual learning and training of binary networks. Still, these discrete problems are combinatorial in nature and are also not amenable to gradient-based optimization. Additionally, classical approaches used in discrete settings do not scale well to large neural networks, forcing scientists and empiricists to rely on alternative methods. Among these, two main distinct sources of top-down information can be used to lead the model to good solutions: (1) extrapolating gradient information from points outside of the solution set (2) comparing evaluations between members of a subset of the valid solutions. We take continuation path (CP) methods to represent using purely the former and Monte Carlo (MC) methods to represent the latter, while also noting that some hybrid methods combine the two. The main goal of this work is to compare both approaches. For that purpose, we first overview the two classes while also discussing some of their drawbacks analytically. Then, on the experimental section, we compare their performance, starting with smaller microworld experiments, which allow more fine-grained control of problem variables, and gradually moving towards larger problems, including neural network regression and neural network pruning for image classification, where we additionally compare against magnitude-based pruning.
翻訳日:2024-02-19 18:21:59 公開日:2024-02-15
# HI-GAN:RGBと深さ印加のための補助入力付き階層型GAN

HI-GAN: Hierarchical Inpainting GAN with Auxiliary Inputs for Combined RGB and Depth Inpainting ( http://arxiv.org/abs/2402.10334v1 )

ライセンス: Link先を確認
Ankan Dash, Jingyi Gu and Guiling Wang(参考訳) 画像内の欠落したピクセルや領域を塗りつぶすことは、様々なアプリケーション、特にユーザの視覚環境からコンテンツが削除される減弱現実(dr)において、混合現実環境で使用される重要なテクニックである。 既存の方法は、複数のカメラを必要とするデジタル交換技術に頼っている。 ARデバイスとスマートフォンは、ToF深度センサーを使用して、RGB画像に合わせたシーン深度マップをキャプチャする。 スピードと手頃な価格にもかかわらず、tofカメラはピクセルを欠く不完全な深度マップを作成します。 以上の課題に対処するために,3つのGANからなる新しいアプローチであるHI-GAN(Hierarchical Inpainting GAN)を提案する。 EdgeGANとLabelGANはそれぞれマスク付きエッジとセグメンテーションラベルのイメージを塗布し、CombinedRGBD-GANはその潜在表現出力を組み合わせてRGBとDepthの塗布を行う。 エッジ画像、特に補助入力としてのセグメンテーションラベル画像は、相補的コンテキストと階層的最適化によって塗装性能を大幅に向上させる。 複数のシーケンシャルモデルと別々のアウトプットを必要とする従来のアプローチとは異なり、私たちの作業はエンドツーエンドで動作し、3つのモデルすべてを同時に、階層的にトレーニングします。 具体的には、EdgeGANとLabelGANは別々に最適化され、さらにコンバインドRGBD-GAN内部に最適化され、塗装品質が向上する。 実験によりHI-GANがシームレスに動作し、既存のアプローチに比べて全体的なパフォーマンスが向上することが示された。

Inpainting involves filling in missing pixels or areas in an image, a crucial technique employed in Mixed Reality environments for various applications, particularly in Diminished Reality (DR) where content is removed from a user's visual environment. Existing methods rely on digital replacement techniques which necessitate multiple cameras and incur high costs. AR devices and smartphones use ToF depth sensors to capture scene depth maps aligned with RGB images. Despite speed and affordability, ToF cameras create imperfect depth maps with missing pixels. To address the above challenges, we propose Hierarchical Inpainting GAN (HI-GAN), a novel approach comprising three GANs in a hierarchical fashion for RGBD inpainting. EdgeGAN and LabelGAN inpaint masked edge and segmentation label images respectively, while CombinedRGBD-GAN combines their latent representation outputs and performs RGB and Depth inpainting. Edge images and particularly segmentation label images as auxiliary inputs significantly enhance inpainting performance by complementary context and hierarchical optimization. We believe we make the first attempt to incorporate label images into inpainting process.Unlike previous approaches requiring multiple sequential models and separate outputs, our work operates in an end-to-end manner, training all three models simultaneously and hierarchically. Specifically, EdgeGAN and LabelGAN are first optimized separately and further optimized inside CombinedRGBD-GAN to enhance inpainting quality. Experiments demonstrate that HI-GAN works seamlessly and achieves overall superior performance compared with existing approaches.
翻訳日:2024-02-19 18:21:19 公開日:2024-02-15
# 超伝導体-量子ドット超導体ジョセフソン接合の量子力学

Quantum dynamics of superconductor-quantum dot-superconductor Josephson junctions ( http://arxiv.org/abs/2402.10330v1 )

ライセンス: Link先を確認
Utkan G\"ung\"ord\"u, Rusko Ruskov, Silas Hoffmann, Kyle Serniak, Andrew J. Kerman, Charles Tahan(参考訳) 超伝導量子ドット超導体(s-qd-s)のヘテロ構造からなるジョセフソン接合は、量子ビットやパラメトリック増幅器を含む様々な電圧可変超伝導量子デバイスを実現するために用いられてきた。 このようなデバイスでは、量子ドットに関連する自由度とその環境との相互作用は、回路ダイナミクスの忠実なモデリングのために考慮されなければならない。 ここでは,S-QD-S接合の自己整合量子化を経路積分の定式化により記述する。 効果的なハミルトニアンでは、アンドレフ境界状態のジョセフソンポテンシャルは静的位相バイアスの初期の結果を再現するが、充電エネルギー項には新しい特徴がある。 (i)接合ゲート電圧によりシステムの容量が再正規化され、ドットとその超電導リード間のトンネル速度の強さにも依存する。 (ii)非対称接合には追加の電荷オフセットが現れる。 これらの結果は、任意のインピーダンス環境においてS-QD-S接合を取り入れた将来の実験や量子デバイスを理解する上で重要である。

Josephson junctions constructed from superconductor-quantum dot-superconductor (S-QD-S) heterostructures have been used to realize a variety of voltage-tunable superconducting quantum devices, including qubits and parametric amplifiers. In such devices, the interplay between the charge degree of freedom associated with the quantum dot and its environment must be considered for faithful modeling of circuit dynamics. Here we describe the self-consistent quantization of a capacitively-shunted S-QD-S junction via path-integral formulation. In the effective Hamiltonian, the Josephson potential for the Andreev bound states reproduces earlier results for static phase bias, whereas the charging energy term has new features: (i) the system's capacitance is renormalized by the junction gate voltage, an effect which depends on the strength of the tunneling rates between the dot and its superconducting leads as well, and (ii) an additional charge offset appears for asymmetric junctions. These results are important to understand future experiments and quantum devices incorporating S-QD-S junctions in arbitrary impedance environments.
翻訳日:2024-02-19 18:19:53 公開日:2024-02-15
# ディジタル双生児(MATH-DT)における数学的機会

Mathematical Opportunities in Digital Twins (MATH-DT) ( http://arxiv.org/abs/2402.10326v1 )

ライセンス: Link先を確認
Harbir Antil(参考訳) 本報告では,2023年12月11日から13日にかけて,ジョージ・メイソン大学におけるディジタルツインズにおける数学的機会に関するワークショップ(MATH-DT)の議論について述べる。 これは、従来のアプローチとは異なるデジタルツイン(DT)に基礎的な数学的進歩が必要であることを示している。 生物学、物理学、工学、医学における伝統的なモデルは、一般的な物理法則(例えば方程式)から始まり、しばしば現実を単純化する。 DTは、特定のエコシステム、オブジェクトまたは人(例えばパーソナライズされたケア)から始まり、多スケールの物理モデリングと結合を必要とする。 したがって、これらのプロセスはシミュレーションとモデリングパイプラインの両端から始まり、異なる信頼性基準と不確実性評価を必要とする。 さらに、既存のアプローチとは異なり、DTは人間が物理的なシステムに対して決定を下すのを助ける。 基礎的な数学的研究のいくつかは特定のアプリケーションコンテキストなしで行うことができるが、DTに対して特定のアプリケーションを念頭に置いておく必要がある。 例えば、橋や生物学的システム(患者)、社会技術システム(都市)をモデル化することは、非常に異なる。 モデルは工学における微分方程式(決定論的/不確かさ)から、エージェントベースを含む生物学における確率まで様々である。 これらは不確実性下でのマルチスケールハイブリッドモデルまたは大規模(多目的)最適化問題である。 普遍的なモデルやアプローチはない。 例えば、予測のためのカルマンフィルタは工学で機能するが、生物医学領域では失敗することがある。 アドホックな研究は、体系的な作業が限られており、AI/MLメソッドが単純なエンジニアリングシステムで失敗し、生体医学的な問題に対してうまく機能することを示した。 数学的機会と挑戦」のリストが報告書を締めくくっている。

The report describes the discussions from the Workshop on Mathematical Opportunities in Digital Twins (MATH-DT) from December 11-13, 2023, George Mason University. It illustrates that foundational Mathematical advances are required for Digital Twins (DTs) that are different from traditional approaches. A traditional model, in biology, physics, engineering or medicine, starts with a generic physical law (e.g., equations) and is often a simplification of reality. A DT starts with a specific ecosystem, object or person (e.g., personalized care) representing reality, requiring multi -scale, -physics modeling and coupling. Thus, these processes begin at opposite ends of the simulation and modeling pipeline, requiring different reliability criteria and uncertainty assessments. Additionally, unlike existing approaches, a DT assists humans to make decisions for the physical system, which (via sensors) in turn feeds data into the DT, and operates for the life of the physical system. While some of the foundational mathematical research can be done without a specific application context, one must also keep specific applications in mind for DTs. E.g., modeling a bridge or a biological system (a patient), or a socio-technical system (a city) is very different. The models range from differential equations (deterministic/uncertain) in engineering, to stochastic in biology, including agent-based. These are multi-scale hybrid models or large scale (multi-objective) optimization problems under uncertainty. There are no universal models or approaches. For e.g., Kalman filters for forecasting might work in engineering, but can fail in biomedical domain. Ad hoc studies, with limited systematic work, have shown that AI/ML methods can fail for simple engineering systems and can work well for biomedical problems. A list of `Mathematical Opportunities and Challenges' concludes the report.
翻訳日:2024-02-19 18:19:18 公開日:2024-02-15
# 局所散逸ランドウ・ツェナー雑音下での絡み合い劣化

Entanglement degradation under local dissipative Landau-Zener noise ( http://arxiv.org/abs/2402.10320v1 )

ライセンス: Link先を確認
Melika Babakan, Arman Kashef, Laleh Memarzadeh(参考訳) 本研究では, アンタングル対の一部分の雑音について, 散逸的ランダウ・ツェナーモデルを用いて検討した。 環境へのスピンカップリング方向が絡み合いダイナミクスに大きく影響することを示す。 特に、トランスバーサルカップリングを伴う低速運転方式におけるバス温度ゼロの場合、絡み合いはそのままであり、高速運転方式ではトランスバーサルノイズは、縦方向ノイズに比べて絡み合いに対する破壊的影響が少ない。 さらに,非断熱的な力学は断熱的な進化よりも絡み合いの保存が好まれることを示した。

We study entanglement degradation when noise on one share of an entangled pair is described by the dissipative Landau-Zener model. We show that spin-coupling direction to the environment significantly affects entanglement dynamics. In particular, for zero bath temperature in the slow-driving regime with transversal coupling, entanglement remains intact and in the fast-driving regime transversal noise have less destructive affects on entanglement compared to the longitudinal noise. Furthermore, we show that non-adiabatic dynamic is more in favour of preserving entanglement compared to adiabatic evolution.
翻訳日:2024-02-19 18:18:47 公開日:2024-02-15
# 名詞句における頭部の最適配置 形容詞, 数字, 形容詞, 名詞の1例

The optimal placement of the head in the noun phrase. The case of demonstrative, numeral, adjective and noun ( http://arxiv.org/abs/2402.10311v1 )

ライセンス: Link先を確認
Ramon Ferrer-i-Cancho(参考訳) 文の語順は複数の原則で表される。 統語的依存関係距離最小化の原理は、単一頭部の統語的依存関係構造における超準最小化(または予測可能性の最大化)の原理と矛盾する: 前者は頭部を線形配置の中心に置くべきであると予測するが、後者は頭部を一方の端に置くべきであると予測する(第一または最後)。 重要な問題は、超準最小化(あるいは予測可能性の最大化)が構文依存距離最小化を超越すべきかどうかである。 単一頭部構造の文脈では、2つの条件が満たされた時に起こる可能性が高いと予測されている。 (a)少ない単語が絡み合っていること、 (b)単語は短い。 ここでは,名詞句の指示文,数字,形容詞,名詞からなる場合の予測をテストする。 言語において好まれる順序によって、名詞は終わりの1つに置かれる傾向にあり、理論的な予測が裏付けられる。 選択順序の構文依存性距離は、偶然に予想されるよりも長い。

The word order of a sentence is shaped by multiple principles. The principle of syntactic dependency distance minimization is in conflict with the principle of surprisal minimization (or predictability maximization) in single head syntactic dependency structures: while the former predicts that the head should be placed at the center of the linear arrangement, the latter predicts that the head should be placed at one of the ends (either first or last). A critical question is when surprisal minimization (or predictability maximization) should surpass syntactic dependency distance minimization. In the context of single head structures, it has been predicted that this is more likely to happen when two conditions are met, i.e. (a) fewer words are involved and (b) words are shorter. Here we test the prediction on the noun phrase when its composed of a demonstrative, a numeral, an adjective and a noun. We find that, across preferred orders in languages, the noun tends to be placed at one of the ends, confirming the theoretical prediction. We also show evidence of anti locality effects: syntactic dependency distances in preferred orders are longer than expected by chance.
翻訳日:2024-02-19 18:18:34 公開日:2024-02-15
# 解釈可能な生成的相反的模倣学習

Interpretable Generative Adversarial Imitation Learning ( http://arxiv.org/abs/2402.10310v1 )

ライセンス: Link先を確認
Wenliang Liu, Danyang Li, Erfan Aasi, Roberto Tron, Calin Belta(参考訳) 模倣学習法は、専門家によるデモンストレーションを通じて自律システムの複雑なタスクを教えることにかなりの成功を収めている。 しかし、これらの手法の限界は、特に学習エージェントが達成しようとする特定のタスクを理解する際に、解釈可能性の欠如である。 本稿では,信号時間論理(STL)推論と制御合成を組み合わせた新しい模倣学習手法を提案する。 このアプローチはタスクを明確に理解するだけでなく、stl式を手作業で調整することで、人間の知識と新しいシナリオへの適応を可能にする。 さらに,推論と制御方針の両方にgan(generative adversarial network)のインスパイアされたトレーニングアプローチを採用し,専門家と学習方針のギャップを効果的に狭めている。 本アルゴリズムの有効性は,その実用的適用性と適応性を示す2つのケーススタディで実証された。

Imitation learning methods have demonstrated considerable success in teaching autonomous systems complex tasks through expert demonstrations. However, a limitation of these methods is their lack of interpretability, particularly in understanding the specific task the learning agent aims to accomplish. In this paper, we propose a novel imitation learning method that combines Signal Temporal Logic (STL) inference and control synthesis, enabling the explicit representation of the task as an STL formula. This approach not only provides a clear understanding of the task but also allows for the incorporation of human knowledge and adaptation to new scenarios through manual adjustments of the STL formulae. Additionally, we employ a Generative Adversarial Network (GAN)-inspired training approach for both the inference and the control policy, effectively narrowing the gap between the expert and learned policies. The effectiveness of our algorithm is demonstrated through two case studies, showcasing its practical applicability and adaptability.
翻訳日:2024-02-19 18:18:09 公開日:2024-02-15
# 量子ミラーの存在下での自発的放出

Spontaneous Emission in the presence of Quantum Mirrors ( http://arxiv.org/abs/2402.10303v1 )

ライセンス: Link先を確認
Kanu Sinha, Jennifer Parra-Contreras, Annyun Das, and Pablo Solano(参考訳) 導波路に結合した原子の配列は鏡として振る舞うことができる。 1つの基底状態または別の基底状態に原子を準備することで誘導された電磁場が反射または透過されるような、$\Lambda$型3レベル原子の配列を考え、この2つの基底状態の重ね合わせは鏡状で透明な境界条件の一貫性の重ね合わせに対応する。 このような量子ミラーの存在下で励起された2段階の原子の自発的な放出と、量子ミラーによって形成された空洞内部を解析し、励起された原子のダイナミクスがラビサイクルの重ね合わせや指数崩壊といったエキゾチックな特徴を示すことを証明した。 その結果,量子電気力学(QED)現象を,境界条件が量子重ね合わせや相関を示すパラダイムで探索する方法が明らかになった。

Arrays of atoms coupled to waveguides can behave as mirrors. We consider an array of $\Lambda$-type three-level atoms wherein preparing the atoms in one ground state or another leads to reflection or transmission of the guided electromagnetic field; a superposition of the two ground states thus corresponds to a coherent superposition of mirror-like and transparent boundary conditions. We analyze the spontaneous emission of an excited two-level atom in the presence of such a quantum mirror, and inside a cavity formed by quantum mirrors, demonstrating that the resulting dynamics of the excited atom can exhibit exotic features, e.g., a superposition of Rabi cycle and exponential decay. Our results pave the way for exploring quantum electrodynamics (QED) phenomena in a paradigm wherein boundary conditions can exhibit quantum superpositions and correlations.
翻訳日:2024-02-19 18:17:53 公開日:2024-02-15
# 重要なニュースをどう識別するか?

How to Discern Important Urgent News? ( http://arxiv.org/abs/2402.10302v1 )

ライセンス: Link先を確認
Oleg Vasilyev and John Bohannon(参考訳) クラスタ化されたニュースデータセットにおけるクラスタの単純な性質は、LLMが評価したように、ニュースの重要性と緊急性(IUN)と強く相関することがわかった。 さまざまなニュースデータセット、データセットのサイズ、クラスタリングアルゴリズム、埋め込みに関する発見を確認しました。 得られた相関関係は、最も重要な緊急ニュースを特定するためにクラスタリング(LLMに代わるものとして)を使用することや、重要でない記事のフィルタリングを可能にする。

We found that a simple property of clusters in a clustered dataset of news correlate strongly with importance and urgency of news (IUN) as assessed by LLM. We verified our finding across different news datasets, dataset sizes, clustering algorithms and embeddings. The found correlation should allow using clustering (as an alternative to LLM) for identifying the most important urgent news, or for filtering out unimportant articles.
翻訳日:2024-02-19 18:17:37 公開日:2024-02-15
# LAVE:ビデオ編集のためのLLMエージェントアシストと言語拡張

LAVE: LLM-Powered Agent Assistance and Language Augmentation for Video Editing ( http://arxiv.org/abs/2402.10294v1 )

ライセンス: Link先を確認
Bryan Wang, Yuliang Li, Zhaoyang Lv, Haijun Xia, Yan Xu, Raj Sodhi(参考訳) ビデオ作成はますます普及しているが、編集に必要な専門知識と努力は初心者にとって障壁となることが多い。 本稿では,ビデオ編集ワークフローへの大型言語モデル(LLM)の統合について検討し,これらの障壁を軽減する。 我々のデザインビジョンは、LLMを利用したエージェントアシストと言語拡張編集機能を提供するLAVEに具体化されている。 LAVEはユーザーの映像の言語記述を自動的に生成し、LLMが動画の処理やタスクの編集を支援するための基盤となる。 ユーザが編集対象を提供すると、エージェントはそれらを満たすための関連するアクションを計画し実行します。 さらに、LAVEでは、エージェントまたは直接UI操作を通じてビデオを編集することができ、柔軟性を提供し、エージェントアクションの手作業による改善を可能にする。 初学者から熟練編集者まで8名の被験者を対象に,LAVEの有効性を実証した。 また,提案したLCM支援編集パラダイムのユーザ認識や,ユーザの創造性や共同創造感への影響も明らかにした。 これらの知見に基づいて,エージェント支援コンテンツ編集の今後の発展を示唆する設計上の意義を提案する。

Video creation has become increasingly popular, yet the expertise and effort required for editing often pose barriers to beginners. In this paper, we explore the integration of large language models (LLMs) into the video editing workflow to reduce these barriers. Our design vision is embodied in LAVE, a novel system that provides LLM-powered agent assistance and language-augmented editing features. LAVE automatically generates language descriptions for the user's footage, serving as the foundation for enabling the LLM to process videos and assist in editing tasks. When the user provides editing objectives, the agent plans and executes relevant actions to fulfill them. Moreover, LAVE allows users to edit videos through either the agent or direct UI manipulation, providing flexibility and enabling manual refinement of agent actions. Our user study, which included eight participants ranging from novices to proficient editors, demonstrated LAVE's effectiveness. The results also shed light on user perceptions of the proposed LLM-assisted editing paradigm and its impact on users' creativity and sense of co-creation. Based on these findings, we propose design implications to inform the future development of agent-assisted content editing.
翻訳日:2024-02-19 18:17:30 公開日:2024-02-15
# KCUSUMを用いたリアルタイム適応サンプリング変更点検出アルゴリズムの評価

An Evaluation of Real-time Adaptive Sampling Change Point Detection Algorithm using KCUSUM ( http://arxiv.org/abs/2402.10291v1 )

ライセンス: Link先を確認
Vijayalakshmi Saravanan, Perry Siehien, Shinjae Yoo, Hubertus Van Dam, Thomas Flynn, Christopher Kelly, Khaled Z Ibrahim(参考訳) 科学シミュレーションからリアルタイムデータストリームの急激な変化を検出することは、正確で効率的なアルゴリズムの展開を要求する難しい課題である。 ライブデータストリームにおける変化点を特定するには、その統計特性、特に大量データシナリオにおける偏差に対する着信観測の連続的な精査が必要となる。 急激な変化検出と誤報の最小化のバランスを維持することは不可欠である。 この目的のために既存の多くのアルゴリズムは既知の確率分布に依存し、その実現可能性を制限する。 本研究では,従来型の累積和法 (cumulative sum, cuum) の非パラメトリック拡張であるkernel-based cumulative sum (kcusum) アルゴリズムを提案する。 KCUSUMは、入ってくるサンプルを参照サンプルと直接比較することで自身を分割し、最大平均離散(MMD)非パラメトリックフレームワークに基礎を置く統計を計算する。 このアプローチは、kcusumの関連性を、真空中のタンパク質の原子軌道のような参照サンプルのみが利用可能なシナリオにまで拡張し、データの基盤となる分布を事前に知ることなく、参照サンプルからの偏差の検出を容易にする。 さらに、MDD固有のランダムウォーク構造を利用することで、予測遅延や平均実行時の誤警報といった様々なユースケースにおけるKCUSUMの性能を理論的に解析することができる。 最後に,NWChem CODARやタンパク質折り畳みデータなどの科学シミュレーションによる実世界のユースケースについて議論し,オンライン変化点検出におけるKCUSUMの有効性を実証する。

Detecting abrupt changes in real-time data streams from scientific simulations presents a challenging task, demanding the deployment of accurate and efficient algorithms. Identifying change points in live data stream involves continuous scrutiny of incoming observations for deviations in their statistical characteristics, particularly in high-volume data scenarios. Maintaining a balance between sudden change detection and minimizing false alarms is vital. Many existing algorithms for this purpose rely on known probability distributions, limiting their feasibility. In this study, we introduce the Kernel-based Cumulative Sum (KCUSUM) algorithm, a non-parametric extension of the traditional Cumulative Sum (CUSUM) method, which has gained prominence for its efficacy in online change point detection under less restrictive conditions. KCUSUM splits itself by comparing incoming samples directly with reference samples and computes a statistic grounded in the Maximum Mean Discrepancy (MMD) non-parametric framework. This approach extends KCUSUM's pertinence to scenarios where only reference samples are available, such as atomic trajectories of proteins in vacuum, facilitating the detection of deviations from the reference sample without prior knowledge of the data's underlying distribution. Furthermore, by harnessing MMD's inherent random-walk structure, we can theoretically analyze KCUSUM's performance across various use cases, including metrics like expected delay and mean runtime to false alarms. Finally, we discuss real-world use cases from scientific simulations such as NWChem CODAR and protein folding data, demonstrating KCUSUM's practical effectiveness in online change point detection.
翻訳日:2024-02-19 18:17:11 公開日:2024-02-15
# ニューラルネットワークのための構造化データ符号化実験

Experiments with Encoding Structured Data for Neural Networks ( http://arxiv.org/abs/2402.10290v1 )

ライセンス: Link先を確認
Sujay Nagesh Koujalgi and Jonathan Dodge(参考訳) このプロジェクトの目的は、バトルスペースと呼ばれるゲームプレイングドメインで良いアクションを選択できるaiエージェントを作ることだ。 バトルスペースのようなシーケンシャルなドメインは計画上の重要なテストベッドであり、国防総省はそのようなドメインをウォーゲーム演習に使っている。 開発したエージェントはモンテカルロ木探索(MCTS)とディープQネットワーク(DQN)技術を組み合わせて,ゲーム環境をナビゲートし,障害物を避け,敵と対話し,旗を捕獲する。 本稿では,エージェントの必要な前駆体であるPythonクラスに格納された複雑な構造化データを示すための符号化技術に焦点を当てる。

The project's aim is to create an AI agent capable of selecting good actions in a game-playing domain called Battlespace. Sequential domains like Battlespace are important testbeds for planning problems, as such, the Department of Defense uses such domains for wargaming exercises. The agents we developed combine Monte Carlo Tree Search (MCTS) and Deep Q-Network (DQN) techniques in an effort to navigate the game environment, avoid obstacles, interact with adversaries, and capture the flag. This paper will focus on the encoding techniques we explored to present complex structured data stored in a Python class, a necessary precursor to an agent.
翻訳日:2024-02-19 18:16:43 公開日:2024-02-15
# 部分観測可能なコンテキスト帯域におけるトンプソンサンプリング

Thompson Sampling in Partially Observable Contextual Bandits ( http://arxiv.org/abs/2402.10289v1 )

ライセンス: Link先を確認
Hongju Park and Mohamad Kazem Shirani Faradonbeh(参考訳) 文脈的包帯は不確実性の下での意思決定の古典的な枠組みを構成する。 この設定では、文脈情報に基づく最高報酬の腕を学習することを目的としているが、各腕の未知の報酬パラメータは、特定の腕を実験することによって学習する必要がある。 したがって、基本的な問題は、探検(例えば、異なる腕でパラメータを学習する)と搾取(すなわち、最高の腕で報酬を得る)のバランスをとることである。 この問題を研究するために、既存の文献は主に完全に観察された文脈を考察している。 しかし、理論上はより一般的であり、実際はより汎用的であるにもかかわらず、部分的な文脈観測の設定はいまだに探索されていない。 本研究では,非観測コンテキストベクトルのノイズ線形関数である観測データに基づいて最適なアームを選択するためのバンディットポリシーについて検討する。 我々の理論的分析は、トンプソンサンプリング政策が探索と搾取のバランスをうまくとれることを示している。 具体的には、以下のものを確立する。 (i)時間とともに多義的に成長する後悔境界 (ii)パラメータ推定の平方根一貫性、及び (iii)寸法や腕の数を含む他の量による後悔のスケーリング。 実データと合成データの両方を用いた大規模な数値実験も、トンプソンサンプリングの有効性を裏付けるものである。 そこで本研究では,不特定分布から発生する局所的に観測される従属確率変数に対して,新しいマルティンゲール法と濃度不等式を導入するとともに,問題依存情報を用いて時間変動サブオプティリティギャップの確率的境界を鋭くする手法を提案する。 これらの技術は、文脈情報や部分的な観察とともに、他の意思決定問題の研究への道を開く。

Contextual bandits constitute a classical framework for decision-making under uncertainty. In this setting, the goal is to learn the arms of highest reward subject to contextual information, while the unknown reward parameters of each arm need to be learned by experimenting that specific arm. Accordingly, a fundamental problem is that of balancing exploration (i.e., pulling different arms to learn their parameters), versus exploitation (i.e., pulling the best arms to gain reward). To study this problem, the existing literature mostly considers perfectly observed contexts. However, the setting of partial context observations remains unexplored to date, despite being theoretically more general and practically more versatile. We study bandit policies for learning to select optimal arms based on the data of observations, which are noisy linear functions of the unobserved context vectors. Our theoretical analysis shows that the Thompson sampling policy successfully balances exploration and exploitation. Specifically, we establish the followings: (i) regret bounds that grow poly-logarithmically with time, (ii) square-root consistency of parameter estimation, and (iii) scaling of the regret with other quantities including dimensions and number of arms. Extensive numerical experiments with both real and synthetic data are presented as well, corroborating the efficacy of Thompson sampling. To establish the results, we introduce novel martingale techniques and concentration inequalities to address partially observed dependent random variables generated from unspecified distributions, and also leverage problem-dependent information to sharpen probabilistic bounds for time-varying suboptimality gaps. These techniques pave the road towards studying other decision-making problems with contextual information as well as partial observations.
翻訳日:2024-02-19 18:16:30 公開日:2024-02-15
# 非局在量子源からのニュートンポテンシャルを超えた重力の量子効果

Quantum effects in gravity beyond the Newton potential from a delocalised quantum source ( http://arxiv.org/abs/2402.10288v1 )

ライセンス: Link先を確認
Lin-Qing Chen, Flaminia Giacomini(参考訳) テーブルトップ実験の最近の進歩は、重力が古典的な記述と互換性がないことを示す機会となる。 重力によって引き起こされる2つの量子重力源間の絡み合いの発生など、現在の全ての実験提案において、重力効果はニュートンポテンシャル、すなわち一般相対性理論の弱場極限と一致し、重力の場の性質を探り出すことができない状態と説明できる。 したがって、この効果のニュートンの起源は、これらの実験から得られる重力の性質に関する結論の限界である。 ここでは、この制限を克服する2つの効果を同定する。ニュートンポテンシャルを用いて再生することはできず、重力放出とは無関係である。 まず、例えば広いガウス状態の重力の一般的な量子源とテスト粒子との相互作用はニュートンポテンシャルや既知の古典理論や重力では再現できないことを示す。 したがって、この相互作用の形式を観察するには、古典重力の修正か量子記述が必要となる。 第二に、重力場とその正準共役運動量の間の量子交換器は、試験粒子と相互作用する一般量子源の相対位相において追加用語として現れることを示す。 この項を位相で観測することは、量子メディエーターとしての重力場のテストである。 ニュートンポテンシャルで再現できるものよりも強い重力の量子的側面を特定することは、重力場の非古典性を証明し、これまで提案されたよりも広い意味で重力の量子的側面をテストする新しい世代の実験を計画するために重要である。

Recent progress in table-top experiments offers the opportunity to show for the first time that gravity is not compatible with a classical description. In all current experimental proposals, such as the generation of gravitationally induced entanglement between two quantum sources of gravity, gravitational effects can be explained with the Newton potential, namely in a regime that is consistent with the weak-field limit of general relativity and does not probe the field nature of gravity. Hence, the Newtonian origin of the effects is a limitation to the conclusions on the nature of gravity that can be drawn from these experiments. Here, we identify two effects that overcome this limitation: they cannot be reproduced using the Newton potential and are independent of graviton emission. First, we show that the interaction between a generic quantum source of gravity, e.g. in a wide Gaussian state, and a test particle cannot be reproduced with the Newton potential nor with a known classical theory or gravity. Hence, observing the form of this interaction would require either a modification to classical gravity or its quantum description. Second, we show that the quantum commutator between the gravitational field and its canonically conjugate momentum appears as an additional term in the relative phase of a generic quantum source interacting with a test particle. Observing this term in the phase would be a test of the gravitational field as a quantum mediator. Identifying stronger quantum aspects of gravity than those reproducible with the Newton potential is crucial to prove the nonclassicality of the gravitational field and to plan a new generation of experiments testing quantum aspects of gravity in a broader sense than what proposed so far.
翻訳日:2024-02-19 18:16:03 公開日:2024-02-15
# 体験再生可能な条件の再検討

Revisiting Experience Replayable Conditions ( http://arxiv.org/abs/2402.10374v1 )

ライセンス: Link先を確認
Taisuke Kobayashi(参考訳) 深い)強化学習で使われる経験リプレイ(er)は、オフポリシーアルゴリズムにのみ適用できると考えられている。 しかし、ERがオン・ポリティクス・アルゴリズムに応用されたケースはいくつかあり、非政治性はERを適用するのに十分な条件である可能性が示唆されている。 本稿では,より厳密なERC(experience replayable conditions)を再考し,ERCを満たすために既存のアルゴリズムを変更する方法を提案する。 この目的のために、政策改善の不安定性がERCの鍵であると仮定される。 計量学習の観点から不安定因子が明らかにされる 一 負の試料からの反発力及び 二 不適切な経験の再生 これにより、対応する安定化トリックが導出される。 その結果, 提案する安定化手法が, アドバンテージ・アクタ-クリティック, オンポリシーアルゴリズムに適用可能であることを数値シミュレーションにより確認した。 さらに、その学習性能は、最先端のオフ・ポリシーアルゴリズムであるsoft actor-criticに匹敵する。

Experience replay (ER) used in (deep) reinforcement learning is considered to be applicable only to off-policy algorithms. However, there have been some cases in which ER has been applied for on-policy algorithms, suggesting that off-policyness might be a sufficient condition for applying ER. This paper reconsiders more strict "experience replayable conditions" (ERC) and proposes the way of modifying the existing algorithms to satisfy ERC. To this end, instability of policy improvements is assumed to be a key in ERC. The instability factors are revealed from the viewpoint of metric learning as i) repulsive forces from negative samples and ii) replays of inappropriate experiences. Accordingly, the corresponding stabilization tricks are derived. As a result, it is confirmed through numerical simulations that the proposed stabilization tricks make ER applicable to an advantage actor-critic, an on-policy algorithm. In addition, its learning performance is comparable to that of a soft actor-critic, a state-of-the-art off-policy algorithm.
翻訳日:2024-02-19 18:08:41 公開日:2024-02-15
# BioMistral: オープンソースで事前訓練された医療ドメイン用大規模言語モデルのコレクション

BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains ( http://arxiv.org/abs/2402.10373v1 )

ライセンス: Link先を確認
Yanis Labrak, Adrien Bazoge, Emmanuel Morin, Pierre-Antoine Gourraud, Mickael Rouvier, Richard Dufour(参考訳) 近年、LLM(Large Language Models)は、医療や医療などの専門分野にまたがる潜在的な応用を提供する、顕著な汎用性を示している。 健康状況に合わせて様々なオープンソース LLM が利用可能であるにもかかわらず、汎用 LLM を医療分野に適用することは重大な課題である。 本稿では、Mistralを基礎モデルとして活用し、PubMed Centralで事前学習した、バイオメディカルドメインに適したオープンソースのLCMであるBioMistralを紹介する。 本研究は、英語で確立された10のQAタスクからなるベンチマークに基づいて、BioMistralの総合評価を行う。 また,量子化およびモデルマージアプローチによって得られた軽量モデルについても検討する。 以上の結果から,BioMistralは既存のオープンソース医療モデルと比較して優れた性能を示し,プロプライエタリな医療モデルと競合する優位性を示した。 最後に,医学用LLMの多言語一般化を評価するため,このベンチマークを英語以外の7言語に自動翻訳し,評価した。 医学領域におけるLLMの大規模多言語評価はこれが初めてである。 実験で得られたデータセット、多言語評価ベンチマーク、スクリプト、およびすべてのモデルを自由にリリースします。

Large Language Models (LLMs) have demonstrated remarkable versatility in recent years, offering potential applications across specialized domains such as healthcare and medicine. Despite the availability of various open-source LLMs tailored for health contexts, adapting general-purpose LLMs to the medical domain presents significant challenges. In this paper, we introduce BioMistral, an open-source LLM tailored for the biomedical domain, utilizing Mistral as its foundation model and further pre-trained on PubMed Central. We conduct a comprehensive evaluation of BioMistral on a benchmark comprising 10 established medical question-answering (QA) tasks in English. We also explore lightweight models obtained through quantization and model merging approaches. Our results demonstrate BioMistral's superior performance compared to existing open-source medical models and its competitive edge against proprietary counterparts. Finally, to address the limited availability of data beyond English and to assess the multilingual generalization of medical LLMs, we automatically translated and evaluated this benchmark into 7 other languages. This marks the first large-scale multilingual evaluation of LLMs in the medical domain. Datasets, multilingual evaluation benchmarks, scripts, and all the models obtained during our experiments are freely released.
翻訳日:2024-02-19 18:08:25 公開日:2024-02-15
# ディープスペクトルメッシュ:グラフニューラルネットワークを用いた多周波顔面メッシュ処理

Deep Spectral Meshes: Multi-Frequency Facial Mesh Processing with Graph Neural Networks ( http://arxiv.org/abs/2402.10365v1 )

ライセンス: Link先を確認
Robert Kosk, Richard Southern, Lihua You, Shaojun Bian, Willem Kokke, Greg Maguire(参考訳) 仮想世界の普及に伴い、データ駆動型3Dメッシュのパラメトリックモデルの重要性は急速に高まっている。 コンピュータビジョン、手続き生成、メッシュ編集など多くのアプリケーションは、これらのモデルに大きく依存している。 しかし、現在のアプローチでは、異なる周波数レベルで変形を独立に編集することはできない。 また、異なる周波数での変形を専用の表現で表現することで、その特性を露出させ、生成されたメッシュの幾何学的および知覚的品質を改善することができる。 本研究では,メッシュ変形を低周波・高周波変形に分解する方法として,スペクトルメッシュを導入した。 これらの低周波・高周波変形の特徴はグラフ畳み込みネットワークを用いた表現学習に用いられる。 3次元顔メッシュ合成のためのパラメトリックモデルが提案されたフレームワーク上に構築され、乱れ高周波変形と低周波変形を制御するユーザパラメータが露出する。 異なる周波数での変形の独立制御と可塑性合成例の生成は、互いに排他的な目的である。 これらの目的を活かすために条件付け因子が導入された。 本モデルでは,異なる周波数レベルを,より適切な表現で表現することで,スペクトル分割をさらに活用する。 低周波は標準ユークリッド座標で表され、高周波は正規化された変形表現(DR)で表される。 本稿では,メッシュ再構成,メッシュ補間,マルチ周波数編集における提案手法の適用について検討する。 L_1$標準とDAME(Dhedral Angle Mesh Error)メトリクスの両方を考慮すると,ほとんどのデータセット上で生成されたメッシュの全体的な品質が向上することが実証された。

With the rising popularity of virtual worlds, the importance of data-driven parametric models of 3D meshes has grown rapidly. Numerous applications, such as computer vision, procedural generation, and mesh editing, vastly rely on these models. However, current approaches do not allow for independent editing of deformations at different frequency levels. They also do not benefit from representing deformations at different frequencies with dedicated representations, which would better expose their properties and improve the generated meshes' geometric and perceptual quality. In this work, spectral meshes are introduced as a method to decompose mesh deformations into low-frequency and high-frequency deformations. These features of low- and high-frequency deformations are used for representation learning with graph convolutional networks. A parametric model for 3D facial mesh synthesis is built upon the proposed framework, exposing user parameters that control disentangled high- and low-frequency deformations. Independent control of deformations at different frequencies and generation of plausible synthetic examples are mutually exclusive objectives. A Conditioning Factor is introduced to leverage these objectives. Our model takes further advantage of spectral partitioning by representing different frequency levels with disparate, more suitable representations. Low frequencies are represented with standardised Euclidean coordinates, and high frequencies with a normalised deformation representation (DR). This paper investigates applications of our proposed approach in mesh reconstruction, mesh interpolation, and multi-frequency editing. It is demonstrated that our method improves the overall quality of generated meshes on most datasets when considering both the $L_1$ norm and perceptual Dihedral Angle Mesh Error (DAME) metrics.
翻訳日:2024-02-19 18:08:06 公開日:2024-02-15
# 低エネルギー積公式のより良い境界

Better bounds for low-energy product formulas ( http://arxiv.org/abs/2402.10362v1 )

ライセンス: Link先を確認
Kasra Hejazi, Modjtaba Shokrian Zini, Juan Miguel Arrazola(参考訳) 積公式は量子系のハミルトン力学の量子シミュレーションにおける主要なアプローチの1つである。 彼らの実装コストは、しばしば悲観的なエラー境界に基づいて計算され、結果としてランタイム全体を過大評価する。 本研究では,時間発展中の状態がシステムのハミルトニアンに対して低エネルギーセクタに存在する場合の積公式による誤差を厳格に検討する。 このような設定では、ネストされた可換子の作用素ノルムに基づく通常の誤差境界は、適切に選択された低エネルギー部分空間に制限された値に置き換えることができ、より厳密な誤差境界が得られる。 さらに, 局所性と正の仮定の下では, 低エネルギー状態に作用する総積公式のシミュレーションが, 従来の結果と比較して漸近的に効率的に行えることを示す。

Product formulas are one of the main approaches for quantum simulation of the Hamiltonian dynamics of a quantum system. Their implementation cost is computed based on error bounds which are often pessimistic, resulting in overestimating the total runtime. In this work, we rigorously consider the error induced by product formulas when the state undergoing time evolution lies in the low-energy sector with respect to the Hamiltonian of the system. We show that in such a setting, the usual error bounds based on the operator norm of nested commutators can be replaced by those restricted to suitably chosen low-energy subspaces, yielding tighter error bounds. Furthermore, under some locality and positivity assumptions, we show that the simulation of generic product formulas acting on low-energy states can be done asymptotically more efficiently when compared with previous results.
翻訳日:2024-02-19 18:07:42 公開日:2024-02-15
# 学習能力はコンパクトな特性です

Learnability is a Compact Property ( http://arxiv.org/abs/2402.10360v1 )

ライセンス: Link先を確認
Julian Asilis, Siddartha Devic, Shaddin Dughmi, Vatsal Sharan, Shang-Hua Teng(参考訳) 様々な問題の学習性は決定不可能であり、あるいは集合論の標準的なzfc公理とは無関係である。 さらに、そのような問題の学習性は有限文字の性質に失敗する可能性があり、非公式に、問題の有限射影を調べることでは検出できない。 一方、学習理論は、学習を特徴づける次元の概念が豊富にあり、問題の有限制限のみ、すなわち有限文字の性質であると考える。 これらの結果はどのように和解できるのか? より正確には、どの学習問題が論理的不決定性に弱いのか、どのクラスが有限な特徴の把握範囲内なのか? 計量損失を伴う教師付き学習の難しさは,有限要素の厳密なキャラクタリゼーションを許すことを実証する。 特に、仮説クラスを学習するサンプル複雑性は、その有限射影を調べることによって検出できることを証明する。 適切な損失関数の幅広いクラスに関して実現可能かつ不可知的な学習を行うため、クラスはその有限射影の全てについて同じことが真であるときに与えられたサンプルの複雑さで正確に学習可能であることを示す。 不適切な損失関数を持つ実現可能な学習では、サンプル複雑性の厳密なコンパクト性が失敗しうることを示し、そのようなサンプル複雑度の違いの程度で2の係数の上限を一致させる。 この場合、より大きなギャップが可能であると推測する。 私たちの技術的研究の中心は、ホールの古典的なマッチング定理を一般化し、独立興味を持つかもしれない対象値以下の関数のクラスを保持する変数の割り当てに関するコンパクト性の結果です。

Recent work on learning has yielded a striking result: the learnability of various problems can be undecidable, or independent of the standard ZFC axioms of set theory. Furthermore, the learnability of such problems can fail to be a property of finite character: informally, it cannot be detected by examining finite projections of the problem. On the other hand, learning theory abounds with notions of dimension that characterize learning and consider only finite restrictions of the problem, i.e., are properties of finite character. How can these results be reconciled? More precisely, which classes of learning problems are vulnerable to logical undecidability, and which are within the grasp of finite characterizations? We demonstrate that the difficulty of supervised learning with metric losses admits a tight finite characterization. In particular, we prove that the sample complexity of learning a hypothesis class can be detected by examining its finite projections. For realizable and agnostic learning with respect to a wide class of proper loss functions, we demonstrate an exact compactness result: a class is learnable with a given sample complexity precisely when the same is true of all its finite projections. For realizable learning with improper loss functions, we show that exact compactness of sample complexity can fail, and provide matching upper and lower bounds of a factor of 2 on the extent to which such sample complexities can differ. We conjecture that larger gaps are possible for the agnostic case. At the heart of our technical work is a compactness result concerning assignments of variables that maintain a class of functions below a target value, which generalizes Hall's classic matching theorem and may be of independent interest.
翻訳日:2024-02-19 18:07:30 公開日:2024-02-15
# グラフ学習タスクのためのソフトプロンプトllmは可能か?

Can we soft prompt LLMs for graph learning tasks? ( http://arxiv.org/abs/2402.10359v1 )

ライセンス: Link先を確認
Zheyuan Liu, Xiaoxin He, Yijun Tian, Nitesh V. Chawla(参考訳) グラフは、ソーシャルネットワーク、生物データ、引用ネットワークといった現実世界のアプリケーションにおける複雑な関係を表現する上で重要な役割を果たす。 近年,Large Language Models (LLM) は様々な領域で大きな成功を収めており,特にグラフに LLM を適用している。 しかし, LLMをグラフモダリティに直接適用することは, グラフとテキストモダリティの相違やミスマッチにより, 独特な課題となる。 そこで我々は,グラフ情報を理解するためのllmsのポテンシャルをさらに調査するために,ソフトプロンプトによってグラフ情報をllmsにアライメントするように設計された新しいフレームワークであるgraphprompterを提案する。 具体的には、GraphPrompterは、複雑なグラフ情報をエンコードするグラフニューラルネットワークと、テキスト情報を効果的に処理するLLMの2つの主要コンポーネントで構成される。 ノード分類およびリンク予測タスクに基づく各種ベンチマークデータセットの総合実験により,提案手法の有効性を実証した。 GraphPrompterフレームワークは、グラフ関連タスクの予測子としてLLMの実質的な能力を明らかにし、研究者が現実のグラフシナリオのスペクトルを越えてLLMをより効果的に利用できるようにする。

Graph plays an important role in representing complex relationships in real-world applications such as social networks, biological data and citation networks. In recent years, Large Language Models (LLMs) have achieved tremendous success in various domains, which makes applying LLMs to graphs particularly appealing. However, directly applying LLMs to graph modalities presents unique challenges due to the discrepancy and mismatch between the graph and text modalities. Hence, to further investigate LLMs' potential for comprehending graph information, we introduce GraphPrompter, a novel framework designed to align graph information with LLMs via soft prompts. Specifically, GraphPrompter consists of two main components: a graph neural network to encode complex graph information and an LLM that effectively processes textual information. Comprehensive experiments on various benchmark datasets under node classification and link prediction tasks demonstrate the effectiveness of our proposed method. The GraphPrompter framework unveils the substantial capabilities of LLMs as predictors in graph-related tasks, enabling researchers to utilize LLMs across a spectrum of real-world graph scenarios more effectively.
翻訳日:2024-02-19 18:07:03 公開日:2024-02-15
# Langevin MCMCによるリーマン多様体の効率的なサンプリング

Efficient Sampling on Riemannian Manifolds via Langevin MCMC ( http://arxiv.org/abs/2402.10357v1 )

ライセンス: Link先を確認
Xiang Cheng, Jingzhao Zhang, Suvrit Sra(参考訳) ギブス分布 $d \pi^* = e^{-h} d {vol}_g$ over a riemann manifold $m$ via (geometric) langevin mcmc; このアルゴリズムはランダムガウス方向に指数写像を計算し、実際に効率的に実装できる。 ランゲヴィンMCMCの分析の鍵は幾何学的オイラー・ムラヤマスキームの離散化誤差の有界であり、$\nabla h$ はリプシッツであり、$M$ は有界断面曲率を持つと仮定する。 この誤差はユークリッド・オイラー・ムラヤマの段階依存の誤差と一致する。 ケンドール・クランストン結合の下での幾何学的ランゲヴィン拡散の縮約保証と合わせて、ランゲヴィン MCMC が$\epsilon$-Wasserstein distance of $\pi^*$ after $\tilde{O}(\epsilon^{-2})$ steps の範囲内にあることを証明し、ユークリッドランゲヴィン MCMC の反復複雑性と一致する。 我々の結果は一般に、$h$ は非凸であり、$M$ は負のリッチ曲率を持つ。 さらに、リーマン曲率テンソルが有界微分を持ち、$\pi^*$が$CD(\cdot,\infty)$条件を満たすという仮定の下で、Langevin MCMCの確率勾配バージョンを分析し、その反復複雑性を$\tilde{O}(\epsilon^{-2})$で束縛する。

We study the task of efficiently sampling from a Gibbs distribution $d \pi^* = e^{-h} d {vol}_g$ over a Riemannian manifold $M$ via (geometric) Langevin MCMC; this algorithm involves computing exponential maps in random Gaussian directions and is efficiently implementable in practice. The key to our analysis of Langevin MCMC is a bound on the discretization error of the geometric Euler-Murayama scheme, assuming $\nabla h$ is Lipschitz and $M$ has bounded sectional curvature. Our error bound matches the error of Euclidean Euler-Murayama in terms of its stepsize dependence. Combined with a contraction guarantee for the geometric Langevin Diffusion under Kendall-Cranston coupling, we prove that the Langevin MCMC iterates lie within $\epsilon$-Wasserstein distance of $\pi^*$ after $\tilde{O}(\epsilon^{-2})$ steps, which matches the iteration complexity for Euclidean Langevin MCMC. Our results apply in general settings where $h$ can be nonconvex and $M$ can have negative Ricci curvature. Under additional assumptions that the Riemannian curvature tensor has bounded derivatives, and that $\pi^*$ satisfies a $CD(\cdot,\infty)$ condition, we analyze the stochastic gradient version of Langevin MCMC, and bound its iteration complexity by $\tilde{O}(\epsilon^{-2})$ as well.
翻訳日:2024-02-19 18:06:43 公開日:2024-02-15
# 環状高分子自己整合場理論におけるフェルミオン交換

Fermion exchange in ring polymer self-consistent field theory ( http://arxiv.org/abs/2402.10356v1 )

ライセンス: Link先を確認
Malcolm A. Kealey, Philip A. LeMaitre and Russell B. Thompson(参考訳) 高分子自己整合場理論を用いた量子古典同型におけるフェルミオン交換と排除体積の間の写像。 交換以外にも、量子粒子は、古典的な統計力学においてリングポリマーとして正確に表現できることが知られており、逆熱エネルギーによってパラメータ化される輪郭は、しばしば虚時と呼ばれる。 リングポリマー自己整合体場理論におけるフェルミオン交換の近似を以前に用いたことを支持する証拠として、特に、環ポリマーの対称性に基づいて、等空時間相互作用ではなく平均場像における全輪相互作用を用いることを正当化する。 また, 排除容積に直接違反するものと, 位相的にアクセス不能なミクロ状態を表すものの両方が反対称交換と等価であることを示した。 ベリリウム原子の電子密度は、古典相関を無視したリングポリマー自己整合場理論で計算され、クーロン相関を無視するhartree-fock理論と非常によく一致する。 総結合エネルギーは6%未満と一致し、化学精度からはまだ遠いが、場の理論方程式はゼロ自由パラメータを持つ第一原理から導かれることを考慮すれば顕著である。 自己整合場理論とハーツリー・フォック理論の差は、ハーツリー・フォック理論に含まれるが自己整合場理論には含まれない古典的クーロン自己相互作用に起因している。 フェルミオン交換と熱軌道排除体積の間の量子古典写像の量子基礎に対する示唆と同様に、自己整合場理論における電子-電子自己相互作用をより正確に表現することにより、合意を改善する可能性について論じる。

A mapping is made between fermion exchange and excluded volume in the quantum-classical isomorphism using polymer self-consistent field theory. Apart from exchange, quantum particles are known to be exactly representable in classical statistical mechanics as ring polymers, with contours that are parametrized by the inverse thermal energy, often called the imaginary time. Evidence in support of a previously used approximation for fermion exchange in ring polymer self-consistent field theory is given, specifically, that the use of all-contour interactions in the mean field picture instead of equal imaginary time interactions is justified based on the symmetry of ring polymers. It is also shown that the removal of forbidden thermal trajectories, both those that violate excluded volume directly and those that represent topologically inaccessible microstates, is equivalent to antisymmetric exchange. The electron density of the beryllium atom is calculated with ring polymer self-consistent field theory ignoring classical correlations, and very good agreement is found with Hartree-Fock theory which also neglects Coulomb correlations. The total binding energies agree to within less than 6%, which while still far from chemical accuracy, is remarkable given that the field theory equations are derived from first principles with zero free parameters. The discrepancy between self-consistent field theory and Hartree-Fock theory is attributed to classical Coulomb self-interactions which are included in Hartree-Fock theory but not in self-consistent field theory. A potential method to improve the agreement by more accurately representing electron-electron self-interactions in self-consistent field theory is discussed, as are the implications for quantum foundations of the quantum-classical mapping between fermion exchange and thermal trajectory excluded volume.
翻訳日:2024-02-19 18:06:06 公開日:2024-02-15
# 言語モデルのゼロ/フェーショット学習を改善するためのプロンプトベースバイアス校正

Prompt-Based Bias Calibration for Better Zero/Few-Shot Learning of Language Models ( http://arxiv.org/abs/2402.10353v1 )

ライセンス: Link先を確認
Kang He, Yinghan Long, Kaushik Roy(参考訳) プロンプト学習は、事前訓練された言語モデル (LM) に存在する固有バイアスの影響を受けやすいため、プロンプトベースゼロ/ファウショット学習の準最適性能が得られる。 本研究では,予め訓練されたLMで符号化された固有バイアスを校正するヌルインプットプロンプト法を提案する。 本研究の目的は,主に社会的公平性に対処し,過度な計算コストを伴う内在バイアスに対処する従来の取り組みと異なり,内在バイアス校正の効率を重視しつつ,下流のゼロ/フェーショット学習におけるLMの性能向上を検討することである。 具体的には,GPT-4から自動選択されたnullの意味入力を多種多様に利用して,固有バイアス探索のための事前学習LMを誘導する。 バイアス反射確率分布を用いてバイアス校正のための分布差損失を定式化し, lmsのバイアスパラメータ(総パラメータの0.1-%$)を等価確率分布に限定的に更新する。 実験の結果, キャリブレーションは言語モデリング能力を維持しつつ, LMの出発点として等価であることがわかった。 感情分析とトピック分類を含む幅広いデータセットにおいて、本手法は、文脈内学習とプロンプトベースファインチューニングの両方において、LMのゼロ/ファインショット学習性能を著しく向上させる(平均9\%と2\%)。

Prompt learning is susceptible to intrinsic bias present in pre-trained language models (LMs), resulting in sub-optimal performance of prompt-based zero/few-shot learning. In this work, we propose a null-input prompting method to calibrate intrinsic bias encoded in pre-trained LMs. Different from prior efforts that address intrinsic bias primarily for social fairness and often involve excessive computational cost, our objective is to explore enhancing LMs' performance in downstream zero/few-shot learning while emphasizing the efficiency of intrinsic bias calibration. Specifically, we leverage a diverse set of auto-selected null-meaning inputs generated from GPT-4 to prompt pre-trained LMs for intrinsic bias probing. Utilizing the bias-reflected probability distribution, we formulate a distribution disparity loss for bias calibration, where we exclusively update bias parameters ($0.1\%$ of total parameters) of LMs towards equal probability distribution. Experimental results show that the calibration promotes an equitable starting point for LMs while preserving language modeling abilities. Across a wide range of datasets, including sentiment analysis and topic classification, our method significantly improves zero/few-shot learning performance of LMs for both in-context learning and prompt-based fine-tuning (on average $9\%$ and $2\%$, respectively).
翻訳日:2024-02-19 18:05:32 公開日:2024-02-15
# 予測・異常検出のための大規模言語モデル:体系的文献レビュー

Large Language Models for Forecasting and Anomaly Detection: A Systematic Literature Review ( http://arxiv.org/abs/2402.10350v1 )

ライセンス: Link先を確認
Jing Su, Chufeng Jiang, Xin Jin, Yuxin Qiao, Tingsong Xiao, Hongda Ma, Rong Wei, Zhi Jing, Jiajun Xu, Junhong Lin(参考訳) この体系的文献レビューは,大規模言語モデル(llm)の予測と異常検出への応用を包括的に検討し,研究の現状,本質的課題,今後の方向性を強調する。 LLMは、パターンを特定し、将来の事象を予測し、様々な領域にまたがる異常な振る舞いを検出するために、広範囲なデータセットを解析し分析する大きな可能性を示してきた。 しかし、このレビューでは、膨大な歴史的データセットへの依存、異なる文脈における一般化可能性の問題、モデル幻覚現象、モデルの知識境界内の制限、必要な計算資源など、幅広い採用と有効性を阻害するいくつかの重要な課題が指摘されている。 詳細な分析を通じて,マルチモーダルデータの統合,学習方法論の進歩,モデルの説明可能性と計算効率の強調など,これらの障害を克服するための潜在的な解決策と戦略について論じる。 さらに、リアルタイム処理の推進、持続可能なモデリングプラクティスの重要性、学際的コラボレーションの価値など、これらの分野におけるLCMの進化を形作る可能性のある重要なトレンドを概説する。 このレビューは、LLMが予測と異常検出にもたらす変革的影響を、継続的なイノベーション、倫理的考察、そしてその潜在能力を実現するための実践的ソリューションの必要性を強調しながら強調する。

This systematic literature review comprehensively examines the application of Large Language Models (LLMs) in forecasting and anomaly detection, highlighting the current state of research, inherent challenges, and prospective future directions. LLMs have demonstrated significant potential in parsing and analyzing extensive datasets to identify patterns, predict future events, and detect anomalous behavior across various domains. However, this review identifies several critical challenges that impede their broader adoption and effectiveness, including the reliance on vast historical datasets, issues with generalizability across different contexts, the phenomenon of model hallucinations, limitations within the models' knowledge boundaries, and the substantial computational resources required. Through detailed analysis, this review discusses potential solutions and strategies to overcome these obstacles, such as integrating multimodal data, advancements in learning methodologies, and emphasizing model explainability and computational efficiency. Moreover, this review outlines critical trends that are likely to shape the evolution of LLMs in these fields, including the push toward real-time processing, the importance of sustainable modeling practices, and the value of interdisciplinary collaboration. Conclusively, this review underscores the transformative impact LLMs could have on forecasting and anomaly detection while emphasizing the need for continuous innovation, ethical considerations, and practical solutions to realize their full potential.
翻訳日:2024-02-19 18:05:02 公開日:2024-02-15
# フィールド条件下における3次元プラント形状再構成のためのNeRFの評価

Evaluating NeRFs for 3D Plant Geometry Reconstruction in Field Conditions ( http://arxiv.org/abs/2402.10344v1 )

ライセンス: Link先を確認
Muhammad Arbab Arshad, Talukder Jubery, James Afful, Anushrut Jignasu, Aditya Balu, Baskar Ganapathysubramanian, Soumik Sarkar, Adarsh Krishnamurthy(参考訳) 室内環境から屋外環境まで,様々な環境下で3D植物を再構成するための異なるニューラルレージアンスフィールド(NeRF)技術の評価を行った。 伝統的な技法はしばしば植物の複雑な詳細を捉えるのに苦労し、植物学や農業の理解に欠かせない。 複雑さを増す3つのシナリオを評価し,lidarを用いて得られたポイントクラウドを根拠データとして比較した。 最も現実的なフィールドシナリオでは、NeRFモデルは、GPU上で30分間のトレーニングを行い、74.65%のF1スコアを達成し、挑戦的な環境でのNeRFの効率と精度を強調している。 これらの結果は, 詳細な3次元プラントモデリングにおけるNeRFの可能性を示すだけでなく, 3次元再構築プロセスの高速化と効率化のための実践的アプローチも示唆している。

We evaluate different Neural Radiance Fields (NeRFs) techniques for reconstructing (3D) plants in varied environments, from indoor settings to outdoor fields. Traditional techniques often struggle to capture the complex details of plants, which is crucial for botanical and agricultural understanding. We evaluate three scenarios with increasing complexity and compare the results with the point cloud obtained using LiDAR as ground truth data. In the most realistic field scenario, the NeRF models achieve a 74.65% F1 score with 30 minutes of training on the GPU, highlighting the efficiency and accuracy of NeRFs in challenging environments. These findings not only demonstrate the potential of NeRF in detailed and realistic 3D plant modeling but also suggest practical approaches for enhancing the speed and efficiency of the 3D reconstruction process.
翻訳日:2024-02-19 18:04:38 公開日:2024-02-15
# RLHFにおける探索駆動政策最適化:効率的なデータ利用に関する理論的考察

Exploration-Driven Policy Optimization in RLHF: Theoretical Insights on Efficient Data Utilization ( http://arxiv.org/abs/2402.10342v1 )

ライセンス: Link先を確認
Yihan Du, Anna Winnicki, Gal Dalal, Shie Mannor, R. Srikant(参考訳) Reinforcement Learning from Human Feedback (RLHF)は、少数の人間のフィードバックを頼りながら、印象的な経験的成功を達成した。 しかし、この現象の理論的正当性は限られている。 さらに、近年の研究では、政策に基づくアルゴリズムの実証的な成功にもかかわらず、価値ベースのアルゴリズムに焦点を当てている。 本稿ではポリシー最適化(PO-RLHF)に基づくRLHFアルゴリズムについて考察する。 このアルゴリズムは、報酬関数の知識を前提とした一般的なポリシカバー・ポリティ・グラディエント(PC-PG)アルゴリズムに基づいている。 PO-RLHFでは、報酬関数の知識は仮定されず、アルゴリズムは報酬関数を推測するために軌道に基づく比較フィードバックに依存する。 クエリの複雑さが低いPO-RLHFの性能バウンダリを提供し、RLHFで優れたパフォーマンスを得るのに、低量の人的フィードバックが十分な理由を洞察する。 重要な特徴は,報酬の観測ではなく,比較クエリの際の報酬関数パラメータを推定するために用いられる,軌道レベルの楕円ポテンシャル解析手法である。 本稿では,線形関数近似,PG-RLHF,NN-PG-RLHFの2つの設定でアルゴリズムを解析する。

Reinforcement Learning from Human Feedback (RLHF) has achieved impressive empirical successes while relying on a small amount of human feedback. However, there is limited theoretical justification for this phenomenon. Additionally, most recent studies focus on value-based algorithms despite the recent empirical successes of policy-based algorithms. In this work, we consider an RLHF algorithm based on policy optimization (PO-RLHF). The algorithm is based on the popular Policy Cover-Policy Gradient (PC-PG) algorithm, which assumes knowledge of the reward function. In PO-RLHF, knowledge of the reward function is not assumed and the algorithm relies on trajectory-based comparison feedback to infer the reward function. We provide performance bounds for PO-RLHF with low query complexity, which provides insight into why a small amount of human feedback may be sufficient to get good performance with RLHF. A key novelty is our trajectory-level elliptical potential analysis technique used to infer reward function parameters when comparison queries rather than reward observations are used. We provide and analyze algorithms in two settings: linear and neural function approximation, PG-RLHF and NN-PG-RLHF, respectively.
翻訳日:2024-02-19 18:04:24 公開日:2024-02-15
# ロボットにおけるLLM/VLMの配置の安全性に関する考察 : リスクと脆弱性の強調

On the Safety Concerns of Deploying LLMs/VLMs in Robotics: Highlighting the Risks and Vulnerabilities ( http://arxiv.org/abs/2402.10340v1 )

ライセンス: Link先を確認
Xiyang Wu, Ruiqi Xian, Tianrui Guan, Jing Liang, Souradip Chakraborty, Fuxiao Liu, Brian Sadler, Dinesh Manocha, Amrit Singh Bedi(参考訳) 本稿では,大規模言語モデル (LLMs) と視覚言語モデル (VLMs) をロボティクスアプリケーションに統合する際のロバスト性と安全性に関する重要な課題について述べる。 最近の研究は、操作やナビゲーションなどのロボティクスタスクの性能向上にLLMとVLMを使うことに重点を置いている。 しかし、そのような統合は言語モデルによる敵対的攻撃への感受性において重大な脆弱性をもたらし、破滅的な結果をもたらす可能性がある。 LLM/VLMとロボティクスのインターフェースにおける最近の研究から,ロボットの動作を操作あるいは誤操作しやすく,安全性を損なうことが示唆された。 我々は,いくつかの可逆的攻撃の例を定義し,これらの攻撃に対する感受性を評価するために,KnowNo VIMAやInstruct2Actを含む言語モデルと統合された3つの著名なロボットフレームワークの実験を行った。 実験により,LLM/VLM-ロボット統合システムの重大な脆弱性が明らかとなった。 特に,本研究では,プロンプト攻撃時の平均性能低下は21.2%,知覚攻撃では30.2%であった。 これらの結果は、先進的なLLM/VLMベースのロボットシステムの安全で信頼性の高い展開を保証するための堅牢な対策の必要性を強調している。

In this paper, we highlight the critical issues of robustness and safety associated with integrating large language models (LLMs) and vision-language models (VLMs) into robotics applications. Recent works have focused on using LLMs and VLMs to improve the performance of robotics tasks, such as manipulation, navigation, etc. However, such integration can introduce significant vulnerabilities, in terms of their susceptibility to adversarial attacks due to the language models, potentially leading to catastrophic consequences. By examining recent works at the interface of LLMs/VLMs and robotics, we show that it is easy to manipulate or misguide the robot's actions, leading to safety hazards. We define and provide examples of several plausible adversarial attacks, and conduct experiments on three prominent robot frameworks integrated with a language model, including KnowNo VIMA, and Instruct2Act, to assess their susceptibility to these attacks. Our empirical findings reveal a striking vulnerability of LLM/VLM-robot integrated systems: simple adversarial attacks can significantly undermine the effectiveness of LLM/VLM-robot integrated systems. Specifically, our data demonstrate an average performance deterioration of 21.2% under prompt attacks and a more alarming 30.2% under perception attacks. These results underscore the critical need for robust countermeasures to ensure the safe and reliable deployment of the advanced LLM/VLM-based robotic systems.
翻訳日:2024-02-19 18:04:03 公開日:2024-02-15
# Alpha-GPT 2.0: 定量投資のためのAI

Alpha-GPT 2.0: Human-in-the-Loop AI for Quantitative Investment ( http://arxiv.org/abs/2402.09746v1 )

ライセンス: Link先を確認
Hang Yuan, Saizhuo Wang, Jian Guo(参考訳) 最近我々は,アルファマイニングのための新しいパラダイムを量的投資の分野で導入し,インタラクティブなアルファマイニングシステムフレームワークであるalpha-gptを開発した。 このシステムは、大規模な言語モデルに基づく反復的ヒューマン-AIインタラクションを中心に、アルファ発見にHuman-in-the-Loopアプローチを導入している。 本稿では,次世代のAlpha-GPT 2.0 \footnote{Draft。 work in progress} – 定量的投資における重要なモデリングと分析フェーズをさらに包含する定量的投資フレームワーク。 このフレームワークは、人間とAIの反復的でインタラクティブな研究を強調し、量的投資パイプライン全体を通してHuman-in-the-Loop戦略を具現化している。 人間の研究者の洞察を体系的なアルファ研究プロセスに同化させることで、循環型アプローチを効果的に活用し、定量的投資研究の効率と正確性を高める。

Recently, we introduced a new paradigm for alpha mining in the realm of quantitative investment, developing a new interactive alpha mining system framework, Alpha-GPT. This system is centered on iterative Human-AI interaction based on large language models, introducing a Human-in-the-Loop approach to alpha discovery. In this paper, we present the next-generation Alpha-GPT 2.0 \footnote{Draft. Work in progress}, a quantitative investment framework that further encompasses crucial modeling and analysis phases in quantitative investment. This framework emphasizes the iterative, interactive research between humans and AI, embodying a Human-in-the-Loop strategy throughout the entire quantitative investment pipeline. By assimilating the insights of human researchers into the systematic alpha research process, we effectively leverage the Human-in-the-Loop approach, enhancing the efficiency and precision of quantitative investment research.
翻訳日:2024-02-18 16:19:13 公開日:2024-02-15
# 2次元スピン系における高次カテゴリー対称性とゲージ

Higher categorical symmetries and gauging in two-dimensional spin systems ( http://arxiv.org/abs/2301.01259v2 )

ライセンス: Link先を確認
Clement Delcamp, Apoorv Tiwari(参考訳) 二次元スピン系の高次カテゴリー対称性を体系的に研究する枠組みを提案する。 エキゾチックではあるが、そのような一般化された対称性は自然に可逆対称性をゲージするときに双対対称性として現れることが示されている。 我々のフレームワークは双対性へのアプローチに依存しており、双対量子格子モデルは、いくつかの入力融合2-カテゴリよりもモジュール2-カテゴリを選択する場合にのみ異なる。 通常の対称性を持つ任意の2次元スピン系が与えられたとき、その任意の部分対称性の(分割された)ゲージを実行する方法を説明する。 次に、入力融合2-カテゴリの森田双対に符号化された対称性構造を対応する加群2-カテゴリに対して示す。 我々は、超場イジングモデルの特定の有限群一般化に特化してこのアプローチを実証し、高群の高次表現の融合2-圏に組織化された格子対称性作用素を明示的に定義する。

We present a framework to systematically investigate higher categorical symmetries in two-dimensional spin systems. Though exotic, such generalised symmetries have been shown to naturally arise as dual symmetries upon gauging invertible symmetries. Our framework relies on an approach to dualities whereby dual quantum lattice models only differ in a choice of module 2-category over some input fusion 2-category. Given an arbitrary two-dimensional spin system with an ordinary symmetry, we explain how to perform the (twisted) gauging of any of its sub-symmetries. We then demonstrate that the resulting model has a symmetry structure encoded into the Morita dual of the input fusion 2-category with respect to the corresponding module 2-category. We exemplify this approach by specialising to certain finite group generalisations of the transverse-field Ising model, for which we explicitly define lattice symmetry operators organised into fusion 2-categories of higher representations of higher groups.
翻訳日:2024-02-17 02:06:18 公開日:2024-02-15
# 演算子代数量子誤差補正のための安定化器形式

Stabilizer Formalism for Operator Algebra Quantum Error Correction ( http://arxiv.org/abs/2304.11442v2 )

ライセンス: Link先を確認
Guillaume Dauphinais, David W. Kribs and Michael Vasmer(参考訳) 従来の量子誤り訂正符号(qec)とpoulinによる演算子量子誤り訂正符号(oqec)の定式化を一般化した、演算子代数量子誤り訂正(oaqec)と呼ばれる一般的な量子エラー補正フレームワークの安定化形式を導入する。 この構成は、ハイブリッド古典量子安定器符号を生成し、与えられた符号に対して修正可能なパウリ誤差を完全に特徴づける定理を定式化し、qecおよびoqec安定化器形式の基本定理を一般化する。 我々は形式主義に動機づけられたベーコン・ソー符号のハイブリッド版を発見し、定理を適用してそれらの符号の距離を与える結果を得る。 最近のハイブリッドサブスペースのコード構造が形式主義によってどのように捉えられているかを示し、またキューディットにどのように拡張されているかを示す。

We introduce a stabilizer formalism for the general quantum error correction framework called operator algebra quantum error correction (OAQEC), which generalizes Gottesman's formulation for traditional quantum error correcting codes (QEC) and Poulin's for operator quantum error correction and subsystem codes (OQEC). The construction generates hybrid classical-quantum stabilizer codes and we formulate a theorem that fully characterizes the Pauli errors that are correctable for a given code, generalizing the fundamental theorems for the QEC and OQEC stabilizer formalisms. We discover hybrid versions of the Bacon-Shor subsystem codes motivated by the formalism, and we apply the theorem to derive a result that gives the distance of such codes. We show how some recent hybrid subspace code constructions are captured by the formalism, and we also indicate how it extends to qudits.
翻訳日:2024-02-17 00:25:10 公開日:2024-02-15
# 低次元量子近似最適化のための表現型アンサッツ

An Expressive Ansatz for Low-Depth Quantum Approximate Optimisation ( http://arxiv.org/abs/2302.04479v2 )

ライセンス: Link先を確認
V. Vijendran, Aritra Das, Dax Enshan Koh, Syed M. Assad, Ping Koy Lam(参考訳) 量子近似最適化アルゴリズム(QAOA)は、組合せ最適化問題を解くために用いられるハイブリッド量子古典アルゴリズムである。 問題とミキサーハミルトニアンからなるパラメータ化されたアンザッツの反復が複数含まれ、パラメータは古典的に最適化される。 QAOAはNISQデバイスに実装できるが、物理的制限は回路深さを制限し、性能を低下させる。 これらの制限に対処するため、この研究は、より古典的なパラメータをアザッツに割り当て、低深さでの性能を改善する、eXpressive QAOA (XQAOA)を導入した。 XQAOAはミキサー・ハミルトンにさらにパウリ-Y成分を導入し、ミキサーは各キュービットに任意のユニタリ変換を実装することができる。 単位深度でのXQAOAの性能をベンチマークするために、MaxCut問題に対するクローズドフォーム式を導出し、これをQAOA、Multi-Angle QAOA(MA-QAOA)、古典ラックスアルゴリズム、そして3から10の次数で128から256ノードの非重み付き正規グラフの集合上の最先端のゴーマンス・ウィリアムソンアルゴリズムと比較する。 以上の結果から,XQAOAは,全グラフインスタンス上でのQAOA,MA-QAOA,古典緩和アルゴリズム,および次数4以上のグラフインスタンス上でのGoemans-Williamsonアルゴリズムよりも常に優れることがわかった。 小型シミュレーションでは、単位深度XQAOAが最大5回の試験深度でQAOAとMA-QAOAを上回ります。 さらに、XQAOA が MaxCut を正確に解析的に解く無限のグラフ族が、この族のあるグラフに対して、XQAOA は QAOA よりもはるかに大きな近似比を達成することを示す。 全体として、XQAOA は NISQ デバイス上での変動量子最適化においてより有効な選択肢であり、低深さでの競合性能を提供する。

The quantum approximate optimisation algorithm (QAOA) is a hybrid quantum-classical algorithm used to approximately solve combinatorial optimisation problems. It involves multiple iterations of a parameterised ansatz comprising a problem and mixer Hamiltonian, with the parameters being classically optimised. While QAOA can be implemented on NISQ devices, physical limitations can limit circuit depth and decrease performance. To address these limitations, this work introduces the eXpressive QAOA (XQAOA), an overparameterised variant of QAOA that assigns more classical parameters to the ansatz to improve its performance at low depths. XQAOA also introduces an additional Pauli-Y component in the mixer Hamiltonian, allowing the mixer to implement arbitrary unitary transformations on each qubit. To benchmark the performance of XQAOA at unit depth, we derive its closed-form expression for the MaxCut problem and compare it to QAOA, Multi-Angle QAOA (MA-QAOA), a classical-relaxed algorithm, and the state-of-the-art Goemans-Williamson algorithm on a set of unweighted regular graphs with 128 and 256 nodes for degrees ranging from 3 to 10. Our results indicate that at unit depth, XQAOA has benign loss landscapes, allowing it to consistently outperform QAOA, MA-QAOA, and the classical-relaxed algorithm on all graph instances and the Goemans-Williamson algorithm on graph instances with degrees greater than 4. Small-scale simulations also reveal that unit-depth XQAOA surpasses both QAOA and MA-QAOA on all tested depths up to five. Additionally, we find an infinite family of graphs for which XQAOA solves MaxCut exactly and analytically show that for some graphs in this family, XQAOA achieves a much larger approximation ratio than QAOA. Overall, XQAOA is a more viable choice for variational quantum optimisation on NISQ devices, offering competitive performance at low depths.
翻訳日:2024-02-17 00:24:35 公開日:2024-02-15
# スキューデータにおける異常検出のための遅延空間相関対応オートエンコーダ

A Latent Space Correlation-Aware Autoencoder for Anomaly Detection in Skewed Data ( http://arxiv.org/abs/2301.00462v3 )

ライセンス: Link先を確認
Padmaksha Roy(参考訳) 潜在空間における教師なし学習に基づく異常検出は、正規データからの異常の判別が高次元空間では困難になるため、重要になっている。 潜在空間における異常を検出するための密度推定法と距離法の両方が過去に研究されてきた。 これらの手法は、入力データの貴重な特性を潜在空間に保持することが、テストデータのより良い再構築に役立つことを証明している。 さらに、現実のセンサーデータは自然界において歪んで非ガウス的であり、平均に基づく推定器は歪んだデータには信頼できない。 また、再構成誤差に基づく異常検出手法は、特徴空間における有用な相関情報を考慮せず、トレーニング分布から逸脱した場合に正確にデータを再構成することができないユークリッド距離に依存する。 本研究では,レコンストラクション誤りに基づくオートエンコーダの限界に対処し,マハラノビス距離(md)の頑健な形式を利用して潜在次元相関を計測し,近値と遠値の両方の異常を効果的に検出するカーネル化オートエンコーダを提案する。 このハイブリッド損失は、低次元潜在空間における原データの有用な相関情報を保持しつつ、潜伏空間のエントロピーを最大化することにより、潜伏次元と高次元先行データ空間との間の相互情報ゲインを最大化する原理によって支援される。 多目的関数は2つの目標を持つ - 頑健なMD距離の形で潜在特徴空間内の相関情報を計測し、先行空間と潜時空間間の相互情報を最大化することにより、潜時空間内の原データ空間からの有用な相関情報を同時に保持しようとする。

Unsupervised learning-based anomaly detection in latent space has gained importance since discriminating anomalies from normal data becomes difficult in high-dimensional space. Both density estimation and distance-based methods to detect anomalies in latent space have been explored in the past. These methods prove that retaining valuable properties of input data in latent space helps in the better reconstruction of test data. Moreover, real-world sensor data is skewed and non-Gaussian in nature, making mean-based estimators unreliable for skewed data. Again, anomaly detection methods based on reconstruction error rely on Euclidean distance, which does not consider useful correlation information in the feature space and also fails to accurately reconstruct the data when it deviates from the training distribution. In this work, we address the limitations of reconstruction error-based autoencoders and propose a kernelized autoencoder that leverages a robust form of Mahalanobis distance (MD) to measure latent dimension correlation to effectively detect both near and far anomalies. This hybrid loss is aided by the principle of maximizing the mutual information gain between the latent dimension and the high-dimensional prior data space by maximizing the entropy of the latent space while preserving useful correlation information of the original data in the low-dimensional latent space. The multi-objective function has two goals -- it measures correlation information in the latent feature space in the form of robust MD distance and simultaneously tries to preserve useful correlation information from the original data space in the latent space by maximizing mutual information between the prior and latent space.
翻訳日:2024-02-17 00:23:52 公開日:2024-02-15
# 量子コンピュータ上の格子qcdから核物理学へ

Toward nuclear physics from lattice QCD on quantum computers ( http://arxiv.org/abs/2211.14550v2 )

ライセンス: Link先を確認
Arata Yamamoto and Takumi Doi(参考訳) 格子QCDの究極のミッションの1つは、強い相互作用の最初の原理から原子核をシミュレートすることである。 これは現在の計算技術にとって非常に難しい作業だが、今後の量子コンピューティング時代には到達できるかもしれない。 本稿では,格子QCDの古典的および量子シミュレーションの計算複雑性について論じる。 量子シミュレーションは核子数の関数としてより良くスケールできることが示され、これにより大きな核に対して性能が向上する。

One of the ultimate missions of lattice QCD is to simulate atomic nuclei from the first principle of the strong interaction. This is an extremely hard task for the current computational technology, but might be reachable in coming quantum computing era. In this paper, we discuss the computational complexities of classical and quantum simulations of lattice QCD. It is shown that the quantum simulation scales better as a function of a nucleon number and thus will outperform for large nuclei.
翻訳日:2024-02-17 00:23:23 公開日:2024-02-15
# 絡み合った光子対を供給する衛星を用いたフォールトトレラント分散量子計算のクロック速度の上限

Upper Bounds for the Clock Speeds of Fault-Tolerant Distributed Quantum Computation using Satellites to Supply Entangled Photon Pairs ( http://arxiv.org/abs/2209.00151v2 )

ライセンス: Link先を確認
Hudson Leone, S Srikara, Peter P. Rohde, Simon Devitt(参考訳) 近年の量子リピータネットワークの進歩にもかかわらず、大陸規模での絡み合い分布は依然として極めて困難で資源集約的である。 衛星を用いて、遠方のステーション間で最大の絡み合った光子(ベル対)を分配することは興味深い選択肢である。 量子衛星ネットワークは量子鍵分布に有効であることが知られているが、そのようなネットワークがフォールトトレラントな分散量子計算(FTDQC)で実現可能かどうかという問題は、今のところ未解決である。 本稿では,不完全な物理ベル対を供給するために衛星ネットワークを用いて,遠方耐故障キュービット間で論理ベル対を生成できる速度の閉形式式を決定する。 大陸間(1000-4999km)と大陸間(5000+km)がそれぞれ10kHzと100Hzの順で走るのに対して、大陸間(500-999km)の衛星ネットワークを用いたFTDQCは1MHzの集合クロックレートで可能であることを示す。

Despite recent advances in quantum repeater networks, entanglement distribution on a continental scale remains prohibitively difficult and resource intensive. Using satellites to distribute maximally entangled photons (Bell pairs) between distant stations is an intriguing alternative. Quantum satellite networks are known to be viable for quantum key distribution, but the question of if such a network is feasible for fault tolerant distributed quantum computation (FTDQC) has so far been unaddressed. In this paper we determine a closed form expression for the rate at which logical Bell pairs can be produced between distant fault-tolerant qubits using a satellite network to supply imperfect physical Bell pairs. With generous parameter assumptions, our results show that FTDQC with satellite networks over statewide distances (500-999 km) is possible for a collective clock rate on the order of 1 MHz while continental (1000-4999 km) and transcontinental (5000+ km) distances run on the order of 10 kHz and 100 Hz respectively.
翻訳日:2024-02-17 00:23:14 公開日:2024-02-15
# 統計モデル選択によるベル不平等違反の異なる因果関係の実験的調整」について

Comment on "Experimentally adjudicating between different causal accounts of Bell-inequality violations via statistical model selection" ( http://arxiv.org/abs/2206.10619v4 )

ライセンス: Link先を確認
Jonte R. Hance and Sabine Hossenfelder(参考訳) 最近の論文で(Phys)。 rev. 105, 042220 (2022)、デーリーらは、超決定論モデルのいくつかは、著者らが行ったベル型実験の統計に過剰に適合するため、標準量子力学に不向きであると主張している。 さらに,超決定論的モデルがどのようなカテゴリーに入るかという追加の文脈を提供し,その過剰性を強調しながら,文献に記載されている他の指標よりも微調整の尺度として優れているが,必ずしもモデルが普遍的に悪いというわけではないことを示唆する。

In a recent paper (Phys. Rev. A 105, 042220 (2022)), Daley et al claim that some superdeterministic models are disfavoured against standard quantum mechanics, because such models overfit the statistics of a Bell-type experiment which the authors conducted. We add to the discussion by providing additional context about how few superdeterministic models fall into the category they analyse, and by emphasising that overfitting, while better as a measure of finetuning than other measures given in the literature, does not necessarily indicate a model is universally bad.
翻訳日:2024-02-17 00:22:51 公開日:2024-02-15
# 最大64周波数ビン上の高忠実ユニタリ演算の実現

Realization of high-fidelity unitary operations on up to 64 frequency bins ( http://arxiv.org/abs/2206.06059v2 )

ライセンス: Link先を確認
Syamsundar De, Vahid Ansari, Jan Sperling, Sonja Barkhofen, Benjamin Brecht and Christine Silberhorn(参考訳) 量子状態に高忠実度で大規模なユニタリ演算を適用する能力は、将来のフォトニック量子技術を実現するための鍵となる。 本稿では,最大64の周波数ビンモードでプログラム可能なユニタリ操作を実現する。 このシステムの性能をベンチマークするために、異なる量子ウォークユニタリ演算、特にグローバーは95\%を超える4次元超キューブの上を歩いており、クォンタルウォークは円上400歩、有限直線は98\%である。 その結果,gaussian boson sampling のような複雑なタスクにおけるアプリケーションの基盤となる高品質なユニタリ操作を実現するための新たな道が開けた。

The ability to apply user-chosen large-scale unitary operations with high fidelity to a quantum state is key to realizing future photonic quantum technologies. Here, we realize the implementation of programmable unitary operations on up to 64 frequency-bin modes. To benchmark the performance of our system, we probe different quantum walk unitary operations, in particular Grover walks on four-dimensional hypercubes with similarities exceeding 95\% and quantum walks with 400 steps on circles and finite lines with similarities of 98\%. Our results open a new path towards implementing high-quality unitary operations, which can form the basis for applications in complex tasks, such as Gaussian boson sampling.
翻訳日:2024-02-17 00:22:38 公開日:2024-02-15
# Perseus: 変分不等式に対する単純かつ最適高次法

Perseus: A Simple and Optimal High-Order Method for Variational Inequalities ( http://arxiv.org/abs/2205.03202v6 )

ライセンス: Link先を確認
Tianyi Lin and Michael. I. Jordan(参考訳) 本稿では、スムーズかつ単調な変分不等式(VIs)を解くための単純で最適な高次法の設計に関するオープンで挑戦的な問題を解決する。 VI は$x^\star \in \mathcal{X}$ を$\langle F(x), x - x^\star\rangle \geq 0$ とする。 我々は、$f$が最大$(p-1)^{th}$次微分を持つ滑らかな設定を考える。 p = 2$ の場合、立方体正規化ニュートン法を vis に拡張し、グローバルレートは $o(\epsilon^{-1})$ である。 改良された$O(\epsilon^{-2/3}\log\log(1/\epsilon))$は、代替の2階法によって得ることができるが、この方法は内部ループとして非自明な線探索手順を必要とする。 同様に、行探索手順に基づく高階法では、$o(\epsilon^{-2/(p+1)}\log\log(1/\epsilon))$となることが示されている。 しかし、Nesterovが強調したように、このような手順は必ずしも大規模アプリケーションに実用的な適用性を示すものではなく、より複雑な手法の最適性を保った単純な高階VI法でこれらの結果を補完することが望ましい。 我々は、$O(\epsilon^{-2/(p+1)})$の速度で、行探索手順を必要とせず、確実に弱解に収束する、$p^{th}$-order法を提案する。 p^{th}$-次法は一般線形スパン仮定の下で一致した下界を確立することによって単調設定において最適であることを示す。 本手法は,滑らかで均一な単調visの線形速度と,滑らかで強い単調visの局所超線形速度を達成する。 また,Minty条件を満たすスムーズかつ非モノトン VI の解法として約$O(\epsilon^{-2/p})$のグローバルレートを達成し,再起動によって拡張された場合,均一・強いミンティ条件を満たすスムーズかつ非モノトン VI に対して大域的線形および局所超線形レートを達成する。

This paper settles an open and challenging question pertaining to the design of simple and optimal high-order methods for solving smooth and monotone variational inequalities (VIs). A VI involves finding $x^\star \in \mathcal{X}$ such that $\langle F(x), x - x^\star\rangle \geq 0$ for all $x \in \mathcal{X}$. We consider the setting in which $F$ is smooth with up to $(p-1)^{th}$-order derivatives. For $p = 2$, the cubic regularized Newton method was extended to VIs with a global rate of $O(\epsilon^{-1})$. An improved rate of $O(\epsilon^{-2/3}\log\log(1/\epsilon))$ can be obtained via an alternative second-order method, but this method requires a nontrivial line-search procedure as an inner loop. Similarly, high-order methods based on line-search procedures have been shown to achieve a rate of $O(\epsilon^{-2/(p+1)}\log\log(1/\epsilon))$. As emphasized by Nesterov, however, such procedures do not necessarily imply practical applicability in large-scale applications, and it would be desirable to complement these results with a simple high-order VI method that retains the optimality of the more complex methods. We propose a $p^{th}$-order method that does \textit{not} require any line search procedure and provably converges to a weak solution at a rate of $O(\epsilon^{-2/(p+1)})$. We prove that our $p^{th}$-order method is optimal in the monotone setting by establishing a matching lower bound under a generalized linear span assumption. Our method with restarting attains a linear rate for smooth and uniformly monotone VIs and a local superlinear rate for smooth and strongly monotone VIs. Our method also achieves a global rate of $O(\epsilon^{-2/p})$ for solving smooth and nonmonotone VIs satisfying the Minty condition and when augmented with restarting it attains a global linear and local superlinear rate for smooth and nonmonotone VIs satisfying the uniform/strong Minty condition.
翻訳日:2024-02-17 00:22:23 公開日:2024-02-15
# ニューラルネットワークによる無差別データ中毒攻撃

Indiscriminate Data Poisoning Attacks on Neural Networks ( http://arxiv.org/abs/2204.09092v2 )

ライセンス: Link先を確認
Yiwei Lu, Gautam Kamath, Yaoliang Yu(参考訳) 悪意のある敵が「毒殺」されたデータを訓練プロセスに注入することでモデルに影響を及ぼそうとするデータ中毒攻撃が近年注目されている。 本研究では,既存の中毒攻撃を詳細に検討し,シーケンシャルなstackelbergゲームを解くための古いアルゴリズムと新しいアルゴリズムをつなぐ。 攻撃者に対して適切な損失関数を選択し、二次情報を利用するアルゴリズムを最適化することにより、ニューラルネットワークに有効な毒物攻撃を設計する。 従来の有毒点生成法とは対照的に,最新の自己分化パッケージを活用し,数万の有毒点を同時かつ協調的に生成できる効率的な実装を提案する。 さらに,深層ニューラルネットワークに対するデータ中毒攻撃の効果を実証的に探究する広範な実験を行う。

Data poisoning attacks, in which a malicious adversary aims to influence a model by injecting "poisoned" data into the training process, have attracted significant recent attention. In this work, we take a closer look at existing poisoning attacks and connect them with old and new algorithms for solving sequential Stackelberg games. By choosing an appropriate loss function for the attacker and optimizing with algorithms that exploit second-order information, we design poisoning attacks that are effective on neural networks. We present efficient implementations that exploit modern auto-differentiation packages and allow simultaneous and coordinated generation of tens of thousands of poisoned points, in contrast to existing methods that generate poisoned points one by one. We further perform extensive experiments that empirically explore the effect of data poisoning attacks on deep neural networks.
翻訳日:2024-02-17 00:21:38 公開日:2024-02-15
# 共変チャネルの絡み合い対称性

Entanglement-symmetries of covariant channels ( http://arxiv.org/abs/2012.05761v8 )

ライセンス: Link先を確認
Dominic Verdon(参考訳) G と G' をモノイド同値なコンパクト量子群とし、H をホップ・ガロワ対象とし、これらの群の表現圏の間のモノイド同値性を実現する。 このモノイド同値性は同値 Chan(G) -> Chan(G') を誘導し、Chan(G) は対象が G の作用を持つ有限次元 C*-代数であり、射が同変チャネルである圏である。 ホップ・ガロワ対象 H が有限次元 *-表現を持つならば、この同値性に関連するチャネルは有限次元の絡み合った資源を用いて互いにシミュレートできることを示す。 この結果を用いて、ある量子チャネルの絡み合い支援容量を計算する。

Let G and G' be monoidally equivalent compact quantum groups, and let H be a Hopf-Galois object realising a monoidal equivalence between these groups' representation categories. This monoidal equivalence induces an equivalence Chan(G) -> Chan(G'), where Chan(G) is the category whose objects are finite-dimensional C*-algebras with an action of G and whose morphisms are covariant channels. We show that, if the Hopf-Galois object H has a finite-dimensional *-representation, then channels related by this equivalence can simulate each other using a finite-dimensional entangled resource. We use this result to calculate the entanglement-assisted capacities of certain quantum channels.
翻訳日:2024-02-17 00:21:23 公開日:2024-02-15
# 故障信頼度推定器の修正法:ディープニューラルネットワークを用いた選択的分類のためのポストホック法の評価

How to Fix a Broken Confidence Estimator: Evaluating Post-hoc Methods for Selective Classification with Deep Neural Networks ( http://arxiv.org/abs/2305.15508v3 )

ライセンス: Link先を確認
Lu\'is Felipe P. Cattelan and Danilo Silva(参考訳) 本稿では,モデルが低信頼予測を回避し,潜在的な誤りを回避できる深層ニューラルネットワークの選択的分類問題に対処する。 これは、特定の分類器の信頼度推定器を変更または再訓練することなく置き換えるものであり、事実上魅力的である。 ソフトマックス出力を持つニューラルネットワークを考えると、我々の目標は、非正規化されたロジットから直接計算できる最高の信頼度推定器を特定することである。 この問題は、最近の研究における興味深い観察によって、多くの分類器は、その選択的な分類性能が、対応するアキュラティシーによって予測されるよりもずっと悪いという意味で、"老朽化した"信頼度推定器を持っているように見えることに動機づけられている。 我々は,84の事前学習済みイメージネット分類器に適用された,既存および提案された信頼度推定器の広範な実験を行った。 以上の結果から,ロジットの単純な$p$ノルム正規化と最大ロジットを信頼度推定器として用いることにより,選択的分類性能が大幅に向上し,多くの分類器で観察される病的挙動を完全に改善できることが示された。 その結果、任意の分類器の選択的分類性能はその対応する精度でほぼ完全に決定される。 また,これらの結果は分布シフト下で一貫性があることが示されている。

This paper addresses the problem of selective classification for deep neural networks, where a model is allowed to abstain from low-confidence predictions to avoid potential errors. We focus on so-called post-hoc methods, which replace the confidence estimator of a given classifier without modifying or retraining it, thus being practically appealing. Considering neural networks with softmax outputs, our goal is to identify the best confidence estimator that can be computed directly from the unnormalized logits. This problem is motivated by the intriguing observation in recent work that many classifiers appear to have a "broken" confidence estimator, in the sense that their selective classification performance is much worse than what could be expected by their corresponding accuracies. We perform an extensive experimental study of many existing and proposed confidence estimators applied to 84 pretrained ImageNet classifiers available from popular repositories. Our results show that a simple $p$-norm normalization of the logits, followed by taking the maximum logit as the confidence estimator, can lead to considerable gains in selective classification performance, completely fixing the pathological behavior observed in many classifiers. As a consequence, the selective classification performance of any classifier becomes almost entirely determined by its corresponding accuracy. Moreover, these results are shown to be consistent under distribution shift.
翻訳日:2024-02-17 00:14:46 公開日:2024-02-15
# 構造化コンポーネントの分離:適応的、解釈可能、スケーラブルな時系列予測に向けて

Disentangling Structured Components: Towards Adaptive, Interpretable and Scalable Time Series Forecasting ( http://arxiv.org/abs/2305.13036v3 )

ライセンス: Link先を確認
Jinliang Deng, Xiusi Chen, Renhe Jiang, Du Yin, Yi Yang, Xuan Song, Ivor W. Tsang(参考訳) 多変量時系列予測(MTS)は多くの実世界のアプリケーションにおいて最重要かつ基本的な問題である。 MTS予測の核となる問題は、複雑な時空間パターンを効果的にモデル化する方法である。 本稿では,空間時間パターンの各成分を個別にモデル化する適応的,解釈可能,スケーラブルな予測フレームワークを開発する。 このフレームワークを、構造化コンポーネントベースのニューラルネットワークの頭字語としてscnnと命名する。 SCNNは、空間時間パターンの潜在構造を算術的に特徴づける、MSSの事前定義された生成プロセスで動作する。 逆プロセスに従って、SCNNはMSSデータを構造化されたコンポーネントと不均一なコンポーネントに分離し、それぞれこれらのコンポーネントの進化を外挿する。 SCNNが3つの実世界のデータセットの最先端モデルよりも優れた性能を達成できることを示すため、大規模な実験が行われた。 さらに,異なる構成のSCNNについて検討し,SCNNの特性の詳細な分析を行う。

Multivariate time-series (MTS) forecasting is a paramount and fundamental problem in many real-world applications. The core issue in MTS forecasting is how to effectively model complex spatial-temporal patterns. In this paper, we develop a adaptive, interpretable and scalable forecasting framework, which seeks to individually model each component of the spatial-temporal patterns. We name this framework SCNN, as an acronym of Structured Component-based Neural Network. SCNN works with a pre-defined generative process of MTS, which arithmetically characterizes the latent structure of the spatial-temporal patterns. In line with its reverse process, SCNN decouples MTS data into structured and heterogeneous components and then respectively extrapolates the evolution of these components, the dynamics of which are more traceable and predictable than the original MTS. Extensive experiments are conducted to demonstrate that SCNN can achieve superior performance over state-of-the-art models on three real-world datasets. Additionally, we examine SCNN with different configurations and perform in-depth analyses of the properties of SCNN.
翻訳日:2024-02-17 00:14:23 公開日:2024-02-15
# SLaDe: 最適化アセンブリのためのポータブルな小型言語モデルデコンパイラ

SLaDe: A Portable Small Language Model Decompiler for Optimized Assembly ( http://arxiv.org/abs/2305.12520v3 )

ライセンス: Link先を確認
Jordi Armengol-Estap\'e, Jackson Woodruff, Chris Cummins, Michael F.P. O'Boyle(参考訳) 脱コンパイルは、多くの高品質のツールが利用できる、よく研究されている分野である。 これらはセキュリティタスクやレガシーコードの移植に頻繁に使用される。 しかし、彼らは定期的に読みにくいプログラムを生成し、新しいプログラミング言語やISAをサポートするために大量のエンジニアリング作業を必要とする。 ニューラルアプローチに対する最近の関心は、可読性のあるコードを生成するポータブルツールを生み出している。 しかし、この手法は通常最適化なしで合成プログラムに制限されており、移植性を評価するモデルは存在しない。 さらに、生成されたコードはより読みやすいかもしれないが、通常は正しくない。 本稿では,実世界コード上でトレーニングされたシーケンス列変換器に基づく,小型言語モデル逆コンパイラであるsladeを提案する。 我々は,新しいトークンライザを開発し,非ドロップアウトトレーニングを活用して高品質なコードを生成する。 型推論を利用して、標準的な分析や最近のニューラルアプローチよりも読みやすく正確なプログラムを生成する。 標準的なアプローチとは異なり、SLaDeはコンテキスト外の型を推論することができ、ニューラルネットワークとは異なり、正しいコードを生成する。 2つのISAと2つの最適化レベルでExeBenchから4000以上の関数のSLaDeを評価する。 sladeは、最先端の産業強化逆コンパイラであるghidraよりも最大6倍正確であり、大きな言語モデルであるchatgptよりも最大4倍正確であり、どちらよりも読みやすいコードを生成する。

Decompilation is a well-studied area with numerous high-quality tools available. These are frequently used for security tasks and to port legacy code. However, they regularly generate difficult-to-read programs and require a large amount of engineering effort to support new programming languages and ISAs. Recent interest in neural approaches has produced portable tools that generate readable code. However, to-date such techniques are usually restricted to synthetic programs without optimization, and no models have evaluated their portability. Furthermore, while the code generated may be more readable, it is usually incorrect. This paper presents SLaDe, a Small Language model Decompiler based on a sequence-to-sequence transformer trained over real-world code. We develop a novel tokenizer and exploit no-dropout training to produce high-quality code. We utilize type-inference to generate programs that are more readable and accurate than standard analytic and recent neural approaches. Unlike standard approaches, SLaDe can infer out-of-context types and unlike neural approaches, it generates correct code. We evaluate SLaDe on over 4,000 functions from ExeBench on two ISAs and at two optimizations levels. SLaDe is up to 6 times more accurate than Ghidra, a state-of-the-art, industrial-strength decompiler and up to 4 times more accurate than the large language model ChatGPT and generates significantly more readable code than both.
翻訳日:2024-02-17 00:14:09 公開日:2024-02-15
# 環境不均一性を考慮したフェデレーション政策最適化のためのクライアント選択

Client Selection for Federated Policy Optimization with Environment Heterogeneity ( http://arxiv.org/abs/2305.10978v4 )

ライセンス: Link先を確認
Zhijie Xie, S.H. Song(参考訳) 政策反復(PI)の開発は、様々なタスクにおいて理論的健全性と経験的成功の両方を得たいくつかの政策勾配法を含む、近年の強化学習(RL)のアルゴリズムにインスピレーションを与えている。 PIの理論は集中学習の文脈に富んでいるが、その統合された環境下での研究はまだ幼児期にある。 本稿では, 環境不均一性による近似誤差を考慮して, 近似PI (API) のフェデレーションバージョンを調査し, 誤差境界を導出する。 理論的には、適切なクライアント選択方式により、このエラー境界を低減できる。 理論的結果に基づいて,環境の不均一性に起因する追加近似誤差を緩和するクライアント選択アルゴリズムを提案する。 実験の結果,提案アルゴリズムは,人口分布から低レベルの不均一性を有するクライアントを効果的に選択することにより,フェデレートされたマウンテンカー問題とムジョコホッパー問題において,他の偏りのないクライアント選択方法よりも優れていた。

The development of Policy Iteration (PI) has inspired many recent algorithms for Reinforcement Learning (RL), including several policy gradient methods that gained both theoretical soundness and empirical success on a variety of tasks. The theory of PI is rich in the context of centralized learning, but its study under the federated setting is still in the infant stage. This paper investigates the federated version of Approximate PI (API) and derives its error bound, taking into account the approximation error introduced by environment heterogeneity. We theoretically prove that a proper client selection scheme can reduce this error bound. Based on the theoretical result, we propose a client selection algorithm to alleviate the additional approximation error caused by environment heterogeneity. Experiment results show that the proposed algorithm outperforms other biased and unbiased client selection methods on the federated mountain car problem and the Mujoco Hopper problem by effectively selecting clients with a lower level of heterogeneity from the population distribution.
翻訳日:2024-02-17 00:13:49 公開日:2024-02-15
# 単一測定値に基づくヌル次元証人

Null dimension witness based on single measurements ( http://arxiv.org/abs/2305.08395v2 )

ライセンス: Link先を確認
Josep Batle, Adam Bednorz(参考訳) 我々は、線形独立性による等式に基づいて、実空間、複素空間、古典空間を識別し、量子系の次元のヌル証人を示す。 証人は十分な数の結果と準備された入力状態を持つ単一の測定のみを含む。 さらに、中間次元に対して、証人は対称的な情報的完備な正の作用素値測度を含む等角的タイトフレームの族に対して飽和する。 そのような証人は最小限の資源を必要とし、多くの実用的不完全に対して堅牢である。 有限統計による誤りについても論じる。

We present a null witness of the dimension of a quantum system, discriminating real, complex and classical spaces, based on equality due to linear independence. The witness involves only a single measurement with sufficiently many outcomes and prepared input states. In addition, for intermediate dimensions, the witness bounds saturate for a family of equiangular tight frames including symmetric informationally complete positive operator valued measures. Such a witness requires a minimum of resources, being robust against many practical imperfections. We also discuss errors due to finite statistics.
翻訳日:2024-02-17 00:13:29 公開日:2024-02-15
# 離散二次モデルQUBOソリューションランドスケープ

Discrete quadratic model QUBO solution landscapes ( http://arxiv.org/abs/2305.00568v3 )

ライセンス: Link先を確認
Tristan Zaborniak, Ulrike Stege(参考訳) 多くの計算問題は二次相互作用を持つ離散変数の最適化を伴う。 離散二次モデル(DQMs)として知られるこれらの問題は一般にNPハードである。 したがって、dqmsを二次的非拘束型バイナリ最適化(qubo)モデルとしてエンコードすることへの関心が高まっている。 しかし、DQMをQUBOモデルに変換することは、しばしばQUBOモデルの解空間に対する無効な解をもたらす。 これらの解は、チューナブルペナルティパラメータによって重み付けされたquboの目的関数に適切な制約を導入し、大域的最適性が有効であることを保証することによってペナルティ化されなければならない。 しかし, このパラメータの強度の選択は, 溶液景観構造への影響を考えると, 簡単ではない。 本稿では,qubo dqmソリューションのランドスケープ構造に対するエンコーディングとペナルティ強度の選択の影響と,その最適化について検討する。

Many computational problems involve optimization over discrete variables with quadratic interactions. Known as discrete quadratic models (DQMs), these problems in general are NP-hard. Accordingly, there is increasing interest in encoding DQMs as quadratic unconstrained binary optimization (QUBO) models to allow their solution by quantum and quantum-inspired hardware with architectures and solution methods designed specifically for such problem types. However, converting DQMs to QUBO models often introduces invalid solutions to the solution space of the QUBO models. These solutions must be penalized by introducing appropriate constraints to the QUBO objective function that are weighted by a tunable penalty parameter to ensure that the global optimum is valid. However, selecting the strength of this parameter is non-trivial, given its influence on solution landscape structure. Here, we investigate the effects of choice of encoding and penalty strength on the structure of QUBO DQM solution landscapes and their optimization, focusing specifically on one-hot and domain-wall encodings.
翻訳日:2024-02-17 00:13:21 公開日:2024-02-15
# GLASSによる脳-コンピュータインタフェースのベイズ推定

Bayesian Inference on Brain-Computer Interfaces via GLASS ( http://arxiv.org/abs/2304.07401v2 )

ライセンス: Link先を確認
Bangyao Zhao, Jane E. Huggins, Jian Kang(参考訳) 脳コンピュータインタフェース(BCI)、特にP300 BCIは、脳とコンピュータ間の直接通信を促進する。 P300 BCIの基本的な統計問題は、脳波(EEG)信号に基づいて標的と非標的の刺激を分類することにある。 しかし、脳波信号の低信号対雑音比(SNR)と複雑な空間的・時間的相関は、特に重度の身体障害者(BCIの主要使用者)にとって、モデリングと計算の課題を呈している。 これらの課題に対処するために、完全にベイズ的な枠組みの下でスパース時間変化効果(GLASS)を持つ新しいガウスラテントチャネルモデルを導入する。 GLASSは、特に不均衡なターゲットと非ターゲット刺激のために設計された制約付き多項ロジスティック回帰に基づいている。 新規な潜在チャネル分解はeegチャネル間の強い空間相関を効率的に緩和するが、ソフト・スレッショルド・ガウス過程(stgp)はスパース・スムースな時間変動効果を保証する。 GLASSは筋萎縮性側索硬化症(ALS)患者のBCIを著しく改善し,既存の文献と一致した頭頂部および頭頂部における重要な脳波チャンネル(PO8,Oz,PO7,Pz)を同定した。 幅広いアクセシビリティのために、後方計算のための効率的な勾配に基づく変分推論(gbvi)アルゴリズムを開発し、https://github.com/bangyaozhao/glassでユーザフレンドリーなpythonモジュールを提供する。

Brain-computer interfaces (BCIs), particularly the P300 BCI, facilitate direct communication between the brain and computers. The fundamental statistical problem in P300 BCIs lies in classifying target and non-target stimuli based on electroencephalogram (EEG) signals. However, the low signal-to-noise ratio (SNR) and complex spatial/temporal correlations of EEG signals present challenges in modeling and computation, especially for individuals with severe physical disabilities-BCI's primary users. To address these challenges, we introduce a novel Gaussian Latent channel model with Sparse time-varying effects (GLASS) under a fully Bayesian framework. GLASS is built upon a constrained multinomial logistic regression particularly designed for the imbalanced target and non-target stimuli. The novel latent channel decomposition efficiently alleviates strong spatial correlations between EEG channels, while the soft-thresholded Gaussian process (STGP) prior ensures sparse and smooth time-varying effects. We demonstrate GLASS substantially improves BCI's performance in participants with amyotrophic lateral sclerosis (ALS) and identifies important EEG channels (PO8, Oz, PO7, and Pz) in parietal and occipital regions that align with existing literature. For broader accessibility, we develop an efficient gradient-based variational inference (GBVI) algorithm for posterior computation and provide a user-friendly Python module available at https://github.com/BangyaoZhao/GLASS.
翻訳日:2024-02-17 00:12:39 公開日:2024-02-15
# 超伝導半導体singlet-triplet qubitsの高忠実性2量子ビットゲート

High-fidelity two-qubit gates of hybrid superconducting-semiconducting singlet-triplet qubits ( http://arxiv.org/abs/2304.05086v2 )

ライセンス: Link先を確認
Maria Spethmann, Stefano Bosco, Andrea Hofmann, Jelena Klinovaja, Daniel Loss(参考訳) 超伝導材料と半導体材料からなるハイブリッドシステムは量子コンピューティングにとって有望なアーキテクチャである。 超伝導体は、半導体量子ドットの自由度の間の長距離相互作用を誘導する。 これらの相互作用は、半導体材料が強いスピン軌道相互作用を持つときに広く異方性を持つ。 この異方性は可変であり、シングルトリップ(ST)スピンキュービット間の高速かつ高忠実な2ビットゲートを可能にする。 我々の設計は量子情報の非計算状態への漏洩を免れ、量子ビット間の常にオンな相互作用を取り除き、これらのアーキテクチャの重要なオープン課題を解決します。 我々のST量子ビットは、追加の技術要求コンポーネントやパラメータの微調整を必要としない。 数ミリテラの低磁場で動作し、超伝導体と完全に互換性がある。 現実的なデバイスにおける系統的誤差を抑えることで、大規模ハイブリッド超伝導半導体量子プロセッサへの道を開くことができる10-3$以下の不完全性を推定する。

Hybrid systems comprising superconducting and semiconducting materials are promising architectures for quantum computing. Superconductors induce long-range interactions between the spin degrees of freedom of semiconducting quantum dots. These interactions are widely anisotropic when the semiconductor material has strong spin-orbit interactions. We show that this anisotropy is tunable and enables fast and high-fidelity two-qubit gates between singlet-triplet (ST) spin qubits. Our design is immune to leakage of the quantum information into noncomputational states and removes always-on interactions between the qubits, thus resolving key open challenges for these architectures. Our ST qubits do not require additional technologically demanding components nor fine-tuning of parameters. They operate at low magnetic fields of a few millitesla and are fully compatible with superconductors. By suppressing systematic errors in realistic devices, we estimate infidelities below $10^{-3}$, which could pave the way toward large-scale hybrid superconducting-semiconducting quantum processors.
翻訳日:2024-02-17 00:12:08 公開日:2024-02-15
# 1次勾配による画像デハビリテーションモデルの騙し

Fooling the Image Dehazing Models by First Order Gradient ( http://arxiv.org/abs/2303.17255v2 )

ライセンス: Link先を確認
Jie Gui, Xiaofeng Cong, Chengwei Peng, Yuan Yan Tang, James Tin-Yau Kwok(参考訳) 単一の画像デハジングタスクの研究は広く研究されている。 しかし,我々が知る限り,よく訓練された脱灰モデルのロバスト性に関する総合的な研究は行われていない。 したがって、ネットワークが悪意ある攻撃に抵抗できるという証拠はない。 本稿では,既存のデハジングアルゴリズムのロバスト性を検証するために,一階勾配に基づく攻撃方法群の設計に焦点をあてる。 画像デハジングタスクの汎用的目的を分析することで、デハジング画像攻撃、ヘイズ層マスク攻撃、ヘイズフリー画像攻撃、ヘイズ保存攻撃の予測を行う4つの攻撃方法を提案する。 対応する実験は、異なるスケールの6つのデータセットで実施される。 さらに、悪意ある攻撃による負の効果を低減するために、敵の訓練に基づく防御戦略を採用する。 本稿では,画像デハジング領域に対する新たな課題を定義し,デハジングネットワーク(aadn)に対する敵意攻撃と呼ぶことができる。 CodeとSupplementary Materialはhttps://github.com/Xiaofeng-life/AADN Dehazing.comで入手できる。

The research on the single image dehazing task has been widely explored. However, as far as we know, no comprehensive study has been conducted on the robustness of the well-trained dehazing models. Therefore, there is no evidence that the dehazing networks can resist malicious attacks. In this paper, we focus on designing a group of attack methods based on first order gradient to verify the robustness of the existing dehazing algorithms. By analyzing the general purpose of image dehazing task, four attack methods are proposed, which are predicted dehazed image attack, hazy layer mask attack, haze-free image attack and haze-preserved attack. The corresponding experiments are conducted on six datasets with different scales. Further, the defense strategy based on adversarial training is adopted for reducing the negative effects caused by malicious attacks. In summary, this paper defines a new challenging problem for the image dehazing area, which can be called as adversarial attack on dehazing networks (AADN). Code and Supplementary Material are available at https://github.com/Xiaofeng-life/AADN Dehazing.
翻訳日:2024-02-17 00:11:32 公開日:2024-02-15
# Dual-Domain Undersampled MRI再構成の再考:受容野の観点からのドメイン固有設計

Rethinking Dual-Domain Undersampled MRI reconstruction: domain-specific design from the perspective of the receptive field ( http://arxiv.org/abs/2303.10611v2 )

ライセンス: Link先を確認
Ziqi Gao, S. Kevin Zhou(参考訳) アンダーサンプドMRIは臨床スキャンの高速化に不可欠である。 デュアルドメイン再構築ネットワークは,SoTA深層学習手法で実現されている。 本稿では,イメージリカバリやK空間補間問題に必要とされる受容場の観点から,二重領域モデルの設計を再考する。 さらに,dual-domain reconstructionのためのドメイン固有モジュール,すなわちk-space global initializationとimage-domain parallel local detail enhancementを導入する。 我々は,画像領域,デュアルドメイン,リファレンスガイドドリコンストラクションを含むmri再構成の異なる規約の下で,soma法をdudornetで翻訳することでモジュールを評価する。 我々のモデルであるDuDoRNet+は、競合するディープラーニング手法よりも大幅に改善されている。

Undersampled MRI reconstruction is crucial for accelerating clinical scanning. Dual-domain reconstruction network is performant among SoTA deep learning methods. In this paper, we rethink dual-domain model design from the perspective of the receptive field, which is needed for image recovery and K-space interpolation problems. Further, we introduce domain-specific modules for dual-domain reconstruction, namely k-space global initialization and image-domain parallel local detail enhancement. We evaluate our modules by translating a SoTA method DuDoRNet under different conventions of MRI reconstruction including image-domain, dual-domain, and reference-guided reconstruction on the public IXI dataset. Our model DuDoRNet+ achieves significant improvements over competing deep learning methods.
翻訳日:2024-02-17 00:11:15 公開日:2024-02-15
# マルチパスルーティングを用いた量子ネットワークにおけるマルチユーザ絡み合い分布

Multi-User Entanglement Distribution in Quantum Networks Using Multipath Routing ( http://arxiv.org/abs/2303.03334v2 )

ライセンス: Link先を確認
Evan Sutcliffe and Alejandra Beghelli(参考訳) 量子ネットワークは、絡み合い分布を実行することにより、セキュアな通信や分散量子計算などの多くのアプリケーションを促進する。 量子情報が複数のユーザ間で共有されるマルチユーザ量子アプリケーションは、ユーザ間で共有されたマルチパート状態にアクセスする必要がある。 我々は,そのような状態の分散プロトコルを,絡み合いの増加率で設計する問題を考える。 マルチパスルーティングを利用して,マルチユーザアプリケーションの絡み合い率を高める3つのプロトコルを提案する。 プロトコルは、限られた量子メモリと確率的絡み合い生成を含む、nisq制約のある量子ネットワーク上で評価される。 モンテカルロシミュレーションの結果, 開発したプロトコルは, 単一経路ルーティング手法と比較して, エンタングル率の指数関数的な高速化を達成し, 最大速度は最大4桁であった。 このスピードアップは、より大きなユーザー向けにも改善されている。 プロトコルをスケールダウン実世界のトポロジでテストしたところ、トポロジーは達成可能な絡み合い率に大きな影響を与え、トポロジー間で1桁の差があることがわかった。 最後に、マルチパスルーティングの利点は、短い量子メモリデコヒーレンス時間と絡み合い発生確率の中間値に対して最大であることを示す。 したがって、開発されたプロトコルは、NISQ量子ネットワーク制御と設計の恩恵を受けることができる。

Quantum networks facilitate numerous applications such as secure communication and distributed quantum computation by performing entanglement distribution. Multi-user quantum applications where quantum information is shared between multiple users require access to a shared multipartite state between the users. We consider the problem of designing protocols for distributing such states, at an increased entanglement rate. We propose three protocols that increase the entanglement rate of multi-user applications by leveraging multipath routing. The protocols are evaluated on quantum networks with NISQ constraints, including limited quantum memories and probabilistic entanglement generation. Monte Carlo simulation results show that the developed protocols achieve an exponential speedup of entanglement rate compared to single-path routing techniques, with a maximum speedup of four orders of magnitude for the cases studied. The speedup was also found to improve for larger sets of users. When the protocols were tested in scaled-down real-world topologies, it was found that topology can have a significant effect on the achievable entanglement rates, with one order of magnitude difference between topologies. Finally, we find that the benefits of multipath routing are a maximum for short quantum memory decoherence times, and intermediate values of entanglement generation probability. Hence the protocols developed can benefit NISQ quantum network control and design.
翻訳日:2024-02-17 00:11:02 公開日:2024-02-15
# 非保存ドリフトを伴う拡散過程の(非平衡)ダイナミクス

(Nonequilibrium) dynamics of diffusion processes with non-conservative drifts ( http://arxiv.org/abs/2302.10154v5 )

ライセンス: Link先を確認
P. Garbaczewski, M. \.Zaba(参考訳) 非保存的ドリフト場を持つ非平衡フォッカー・プランク力学は、次元$N\geq 2$で、実スカラーポテンシャル$V$と純粋に虚ベクトルポテンシャル$iA$の非エルミート量子力学と関連付けられる。 フォッカー・プランク確率密度関数はファインマンの経路積分によって得られるため、前回の観測は、実時間とユークリッド時間において、おそらく量子起源の「磁気アフィン」伝播子の一般的な問題に向けられている。 下記では、拡散過程の力学における磁性(または代理磁性)の形式的および概念的に異なる実装を計算制御下に置くことができる$N=3$「磁性糸」に従う。 我々は,次の相互関係に焦点をあてるものとする。 (i)非保存的ドリフト拡散。 (ii)(電極)磁場中の荷電粒子の古典的なブラウン運動 (iii)いわゆるユークリッド量子力学において生じる拡散過程(初期から非エルミート型「磁気」ハミルトニアンを用いる) (iv) 拡散過程の記述における推定された(経路)積分核の確率的意義に関するユークリッド写像 $\exp(-ith_{quant}) \rightarrow \exp(-th_{eucl})$ の有用性の限界

The nonequilibrium Fokker-Planck dynamics with a non-conservative drift field, in dimension $N\geq 2$, can be related with the non-Hermitian quantum mechanics in a real scalar potential $V$ and in a purely imaginary vector potential -$iA$ of real amplitude $A$. Since Fokker-Planck probability density functions may be obtained by means of Feynman's path integrals, the previous observation points towards a general issue of "magnetically affine" propagators, possibly of quantum origin, in real and Euclidean time. In below we shall follow the $N=3$ "magnetic thread", within which one may keep under a computational control formally and conceptually different implementations of magnetism (or surrogate magnetism) in the dynamics of diffusion processes. We shall focus on interrelations (with due precaution to varied, not evidently compatible, notational conventions) of: (i) the pertinent non-conservatively drifted diffusions, (ii) the classic Brownian motion of charged particles in the (electro)magnetic field, (iii) diffusion processes arising within so-called Euclidean quantum mechanics (which from the outset employs non-Hermitian "magnetic" Hamiltonians), (iv) limitations of the usefulness of the Euclidean map $\exp(-itH_{quant}) \rightarrow \exp(-tH_{Eucl})$, regarding the probabilistic significance of inferred (path) integral kernels in the description of diffusion processes.
翻訳日:2024-02-17 00:10:42 公開日:2024-02-15
# エンベロープ理論の精度試験

Accuracy Tests of the Envelope Theory ( http://arxiv.org/abs/2302.09892v2 )

ライセンス: Link先を確認
Lorenzo Cimino, Cyrille Chevalier, Ethan Carlier, Joachim Viseur(参考訳) 包絡理論は、いくつかの量子多体系、特にハドロン物理学の領域の固有解を得るための簡単な近似法である。 ソリューションが信頼性が高く改善手順が存在するとしても、いくつかのシステムでは精度が欠ける。 以前の研究で、2つの仮説が低精度を説明するために提案された: ポテンシャルのばらつきの存在、または特異な相互作用に対する変分的性格の欠如である。 本研究では,これらの仮説を検証するための異なるシステムについて検討する。 これらのテストは、発散の存在が実際には正確な結果をもたらしないことを示しているが、変分キャラクタの欠如は改善手順の影響を減少させる。

The envelope theory is an easy-to-use approximation method to obtain eigensolutions for some quantum many-body systems, in particular in the domain of hadronic physics. Even if the solutions are reliable and an improvement procedure exists, the method can lack accuracy for some systems. In a previous work, two hypotheses were proposed to explain the low precision: the presence of a divergence in the potential or the lack of a variational character for peculiar interactions. In the present work, different systems are studied to test these hypotheses. These tests show that the presence of a divergence does indeed cause less accurate results, while the lack of a variational character reduces the impact of the improvement procedure.
翻訳日:2024-02-17 00:10:12 公開日:2024-02-15
# 多部系における絡み合いとエントロピー : 有用アプローチ

Entanglement and entropy in multipartite systems: a useful approach ( http://arxiv.org/abs/2307.05205v2 )

ライセンス: Link先を確認
A. Bernal, J. A. Casas and J.M. Moreno(参考訳) 量子エンタングルメントと量子エントロピーは、多部量子系の研究において重要な概念である。 本稿では,特に有用な形で再表現された共起ベクトルの概念が,両者の分析に新たな洞察と計算ツールを提供する方法を示す。 特に、このアプローチを一般的な多部純状態に対して用いることで、既知の関係を容易な方法で証明し、異なる二部分割に関連付けられた共起関係を新たに構築することができる。 この手法は多項式時間で計算可能な一般多部系における真の絡み合いの十分な条件を導出するのにも有用である。 エントロピー・オブ・エンタングルメントの観点から、このアプローチは、サブ加法のような tsallis-$2$ のエントロピーの性質を証明し、新しいもの(例えば、常に満たされる強部分加法の改良版)を導出するために強力である。

Quantum entanglement and quantum entropy are crucial concepts in the study of multipartite quantum systems. In this work we show how the notion of concurrence vector, re-expressed in a particularly useful form, provides new insights and computational tools for the analysis of both. In particular, using this approach for a general multipartite pure state, one can easily prove known relations in an easy way and to build up new relations between the concurrences associated with the different bipartitions. The approach is also useful to derive sufficient conditions for genuine entanglement in generic multipartite systems that are computable in polynomial time. From an entropy-of-entanglement perspective, the approach is powerful to prove properties of the Tsallis-$2$ entropy, such as the subadditivity, and to derive new ones, e.g. a modified version of the strong subadditivity which is always fulfilled; thanks to the purification theorem these results hold for any multipartite state, whether pure or mixed.
翻訳日:2024-02-17 00:01:40 公開日:2024-02-15
# CuTS: カスタマイズ可能なタブラル合成データ生成

CuTS: Customizable Tabular Synthetic Data Generation ( http://arxiv.org/abs/2307.03577v3 )

ライセンス: Link先を確認
Mark Vero, Mislav Balunovi\'c, Martin Vechev(参考訳) プライバシー、データ品質、データ共有に関する懸念は、表データアプリケーションにとって重要な制限となる。 元のディストリビューションに類似した合成データを生成することはこれらの問題のいくつかに対処するが、ほとんどのアプリケーションは生成されたデータのさらなるカスタマイズの恩恵を受けるだろう。 しかし、既存の合成データアプローチは、ディファレンシャルプライバシ(dp)やフェアネスなど、特定の制約に限定されている。 本研究では,最初のカスタマイズ可能な合成表データ生成フレームワークであるCuTSを紹介する。 CuTSのカスタマイズは、宣言的な統計的および論理的表現によって達成され、幅広い要件(例えばDPや公正性など)をサポートする。 カスタム仕様の存在下で高い合成データ品質を確保するため、CuTSは元のデータセットで事前訓練され、新しい緩和法を用いて提供された仕様から自動的に派生した微分可能な損失に基づいて微調整される。 我々は4つのデータセットと多数のカスタム仕様に基づいてCuTSを評価し、より汎用的でありながら、いくつかのタスクにおける最先端の専門的アプローチより優れている。 特に、同じ公平度レベルでは、アダルトデータセット上での公正な合成データ生成の最先端よりも、下流の精度が2.3%高い。

Privacy, data quality, and data sharing concerns pose a key limitation for tabular data applications. While generating synthetic data resembling the original distribution addresses some of these issues, most applications would benefit from additional customization on the generated data. However, existing synthetic data approaches are limited to particular constraints, e.g., differential privacy (DP) or fairness. In this work, we introduce CuTS, the first customizable synthetic tabular data generation framework. Customization in CuTS is achieved via declarative statistical and logical expressions, supporting a wide range of requirements (e.g., DP or fairness, among others). To ensure high synthetic data quality in the presence of custom specifications, CuTS is pre-trained on the original dataset and fine-tuned on a differentiable loss automatically derived from the provided specifications using novel relaxations. We evaluate CuTS over four datasets and on numerous custom specifications, outperforming state-of-the-art specialized approaches on several tasks while being more general. In particular, at the same fairness level, we achieve 2.3% higher downstream accuracy than the state-of-the-art in fair synthetic data generation on the Adult dataset.
翻訳日:2024-02-17 00:00:51 公開日:2024-02-15
# 連続可変系における状態伝達のためのノイズデカップリング

Noise Decoupling for State Transfer in Continuous Variable Systems ( http://arxiv.org/abs/2307.02059v4 )

ライセンス: Link先を確認
Fattah Sakuldee, Behnam Tonekaboni(参考訳) 連続変数を用いた状態伝達問題に対して,一意演算のランダムな混合によって与えられる雑音チャネルの玩具モデルを考える。 送信ノードと受信ノードの間の経路をインターベンションできると仮定して、生成および消滅演算子の線形多項式と二次多項式によって生成されたノイズチャネルを制御し、同一チャネルを実現するため、ノイズデカップリングという用語が提案される。 ランダムな定音の場合、一般ノイズプロファイルでは目標状態が回復でき、ノイズと比較して介入が速い場合にはデカップリングを行うことができる。 送信機の状態は、目標状態の畳み込みと、ノイズと操作スキームを特徴付けるフィルタ関数として記述できることを示す。 また,同様の解析を高階多項式生成器の場合にも拡張可能であることも簡単に議論する。 最後に,数値計算によりプロトコルを実証する。

We consider a toy model of noise channels, given by a random mixture of unitary operations, for state transfer problems with continuous variables. Assuming that the path between the transmitter node and the receiver node can be intervened, we propose a noise decoupling protocol to manipulate the noise channels generated by linear and quadratic polynomials of creation and annihilation operators, to achieve an identity channel, hence the term noise decoupling. For random constant noise, the target state can be recovered while for the general noise profile, the decoupling can be done when the interventions are fast compared to the noise. We show that the state at the transmitter can be written as a convolution of the target state and a filter function characterizing the noise and the manipulation scheme. We also briefly discuss that a similar analysis can be extended to the case of higher-order polynomial generators. Finally, we demonstrate the protocols by numerical calculations.
翻訳日:2024-02-17 00:00:31 公開日:2024-02-15
# ロバスト・最適宇宙解析のためのマルチスケール流れ

Multiscale Flow for Robust and Optimal Cosmological Analysis ( http://arxiv.org/abs/2306.04689v2 )

ライセンス: Link先を確認
Biwei Dai and Uros Seljak(参考訳) 弱レンズ化などの2次元宇宙データの場レベル確率をモデル化し,サンプルを生成する生成正規化フローであるMultiscale Flowを提案する。 マルチスケールフローはウェーブレットベースで宇宙場の階層的な分解を行い、次に異なるウェーブレット成分を正規化フローとしてモデル化する。 元の宇宙論場の対数様相は、各ウェーブレット項の対数様相を総和することで回復することができる。 この分解により、異なるスケールから情報を分離し、未知のスケール依存体系のようなデータ内の分布シフトを識別できる。 結果として生じる可能性分析は、これらの体系を識別できるだけでなく、マルチスケールフローが次元の減少を伴わずに現場で完全な可能性を学ぶことができるという意味で、最適にすることができる。 宇宙論的な推論のための弱レンズ化モックデータセットにマルチスケールフローを適用し、パワースペクトルやピーク数といった従来の要約統計と、散乱変換や畳み込みニューラルネットワークのような新しい機械学習に基づく要約統計を著しく上回ることを示す。 さらに,マルチスケールフローは,バリオン効果などのトレーニングデータにない分布変化を識別できることを示す。 最後に、マルチスケールフローを用いて、弱いレンズデータの現実的なサンプルを生成することを実証する。

We propose Multiscale Flow, a generative Normalizing Flow that creates samples and models the field-level likelihood of two-dimensional cosmological data such as weak lensing. Multiscale Flow uses hierarchical decomposition of cosmological fields via a wavelet basis, and then models different wavelet components separately as Normalizing Flows. The log-likelihood of the original cosmological field can be recovered by summing over the log-likelihood of each wavelet term. This decomposition allows us to separate the information from different scales and identify distribution shifts in the data such as unknown scale-dependent systematics. The resulting likelihood analysis can not only identify these types of systematics, but can also be made optimal, in the sense that the Multiscale Flow can learn the full likelihood at the field without any dimensionality reduction. We apply Multiscale Flow to weak lensing mock datasets for cosmological inference, and show that it significantly outperforms traditional summary statistics such as power spectrum and peak counts, as well as novel Machine Learning based summary statistics such as scattering transform and convolutional neural networks. We further show that Multiscale Flow is able to identify distribution shifts not in the training data such as baryonic effects. Finally, we demonstrate that Multiscale Flow can be used to generate realistic samples of weak lensing data.
翻訳日:2024-02-16 23:59:41 公開日:2024-02-15
# Str2Str:ゼロショットタンパク質コンフォーメーションサンプリングのためのスコアベースのフレームワーク

Str2Str: A Score-based Framework for Zero-shot Protein Conformation Sampling ( http://arxiv.org/abs/2306.03117v2 )

ライセンス: Link先を確認
Jiarui Lu, Bozitao Zhong, Zuobai Zhang, Jian Tang(参考訳) タンパク質の動的性質はそれらの生物学的機能や性質を決定するために不可欠であり、モンテカルロ (MC) と分子動力学 (MD) のシミュレーションはそのような現象を研究する主要なツールである。 経験的に導出された力場を利用することで、mcまたはmdシミュレーションはマルコフ連鎖あるいはニュートン力学を通じて系を数値的に発展させることで配座空間を探索する。 しかし、力場の高エネルギー障壁は、希少な出来事による両方の方法の探索を妨げることができ、結果として、徹底的な走行をせずに十分なサンプルアンサンブルが得られない。 既存の学習ベースのアプローチは直接サンプリングを行うが、高いデータ取得コストと一般性に苦しむトレーニングのターゲット固有のシミュレーションデータに大きく依存している。 シミュレーションアニーリングにインスパイアされたStr2Strは,ロト変換同変特性を持つゼロショットコンフォーメーションサンプリングが可能な新しい構造から構造への変換フレームワークである。 本手法は,一般的な結晶構造をトレーニング対象とし,トレーニングと推論の双方においてシミュレーションデータに依存しないアモータイズデノナイジングスコアマッチングを利用する。 いくつかのベンチマークタンパク質システムにおける実験結果は、str2strが以前の最先端生成構造予測モデルよりも優れており、長いmdシミュレーションよりも桁違いに速いことを示している。 私たちのオープンソース実装はhttps://github.com/lujiarui/str2strで利用可能です。

The dynamic nature of proteins is crucial for determining their biological functions and properties, for which Monte Carlo (MC) and molecular dynamics (MD) simulations stand as predominant tools to study such phenomena. By utilizing empirically derived force fields, MC or MD simulations explore the conformational space through numerically evolving the system via Markov chain or Newtonian mechanics. However, the high-energy barrier of the force fields can hamper the exploration of both methods by the rare event, resulting in inadequately sampled ensemble without exhaustive running. Existing learning-based approaches perform direct sampling yet heavily rely on target-specific simulation data for training, which suffers from high data acquisition cost and poor generalizability. Inspired by simulated annealing, we propose Str2Str, a novel structure-to-structure translation framework capable of zero-shot conformation sampling with roto-translation equivariant property. Our method leverages an amortized denoising score matching objective trained on general crystal structures and has no reliance on simulation data during both training and inference. Experimental results across several benchmarking protein systems demonstrate that Str2Str outperforms previous state-of-the-art generative structure prediction models and can be orders of magnitude faster compared to long MD simulations. Our open-source implementation is available at https://github.com/lujiarui/Str2Str
翻訳日:2024-02-16 23:59:10 公開日:2024-02-15
# 大規模言語モデルに基づくエージェントを用いたユーザ行動シミュレーション

User Behavior Simulation with Large Language Model based Agents ( http://arxiv.org/abs/2306.02552v3 )

ライセンス: Link先を確認
Lei Wang, Jingsen Zhang, Hao Yang, Zhiyuan Chen, Jiakai Tang, Zeyu Zhang, Xu Chen, Yankai Lin, Ruihua Song, Wayne Xin Zhao, Jun Xu, Zhicheng Dou, Jun Wang, Ji-Rong Wen(参考訳) 高品質なユーザ行動データのシミュレーションは、人間の意思決定プロセスの複雑なメカニズムに起因して、人間中心のアプリケーションにおいて、常に根本的な問題となっている。 近年,大規模言語モデル (LLM) は膨大な量のウェブ知識を学習することにより,人間のような知性を実現できることが示唆されている。 これらのモデルは、より信じがたいユーザー行動シミュレーションに重要な機会をもたらすと信じています。 このような方向性を刺激するために,LLMベースのエージェントフレームワークを提案し,実際のユーザ動作をシミュレートするためのサンドボックス環境を設計する。 広範な実験の結果,本手法のシミュレーション動作は実際の人間に非常に近いことがわかった。 潜在的な応用について,(1)情報コクオンと(2)ユーザのコンフォーメーション行動を含む2つの社会現象をシミュレートし,検討する。 本研究は人間中心アプリケーションのための新しいシミュレーションパラダイムを提供する。

Simulating high quality user behavior data has always been a fundamental problem in human-centered applications, where the major difficulty originates from the intricate mechanism of human decision process. Recently, substantial evidences have suggested that by learning huge amounts of web knowledge, large language models (LLMs) can achieve human-like intelligence. We believe these models can provide significant opportunities to more believable user behavior simulation. To inspire such direction, we propose an LLM-based agent framework and design a sandbox environment to simulate real user behaviors. Based on extensive experiments, we find that the simulated behaviors of our method are very close to the ones of real humans. Concerning potential applications, we simulate and study two social phenomenons including (1) information cocoons and (2) user conformity behaviors. This research provides novel simulation paradigms for human-centered applications.
翻訳日:2024-02-16 23:58:46 公開日:2024-02-15
# 分離学習による混乱ノードの明確化

Clarify Confused Nodes via Separated Learning ( http://arxiv.org/abs/2306.02285v3 )

ライセンス: Link先を確認
Jiajun Zhou, Shengbo Gong, Chenxuan Xie, Shanqing Yu, Qi Xuan, Xiaoniu Yang(参考訳) グラフニューラルネットワーク(gnns)は、グラフ指向タスクにおいて著しく進歩した。 しかし、実世界のグラフには不均一なノードの割合が必ず含まれており、古典的なGNNのホモフィリーな仮定に挑戦し、その性能を妨げている。 既存の研究の多くは、ヘテロフィラスノードとホモフィラスノードの共有重みを持つジェネリックモデルの設計を続けている。 高階メッセージやマルチチャネルアーキテクチャが組み込まれているにもかかわらず、これらの取り組みはしばしば不足している。 少数の研究は、異なるノードグループを個別に訓練しようとするが、不適切な分離メトリクスと低い効率に苦しむ。 本稿ではまず,より信頼性の高いノード分離を容易にするため,近隣融合(NC)と呼ばれる新しいメトリクスを提案する。 nc値の異なるノード群は,グループ内精度と組込みの可視化において一定の差異を示す。 これらは近所の混乱誘導グラフ畳み込みネットワーク(ncgcn)への道を開き、ノードをnc値でグループ化し、グループ内の重み付けとメッセージパッシングを受け入れる。 ホモフィリアスベンチマークとヘテロフィリアスベンチマークの両方に関する広範囲な実験により、我々のフレームワークがノードを効果的に分離し、最新の手法と比較して大幅なパフォーマンス向上をもたらすことを実証した。 ソースコードはまもなくリリースされる予定だ。

Graph neural networks (GNNs) have achieved remarkable advances in graph-oriented tasks. However, real-world graphs invariably contain a certain proportion of heterophilous nodes, challenging the homophily assumption of classical GNNs and hindering their performance. Most existing studies continue to design generic models with shared weights between heterophilous and homophilous nodes. Despite the incorporation of high-order messages or multi-channel architectures, these efforts often fall short. A minority of studies attempt to train different node groups separately but suffer from inappropriate separation metrics and low efficiency. In this paper, we first propose a new metric, termed Neighborhood Confusion (NC), to facilitate a more reliable separation of nodes. We observe that node groups with different levels of NC values exhibit certain differences in intra-group accuracy and visualized embeddings. These pave the way for Neighborhood Confusion-guided Graph Convolutional Network (NCGCN), in which nodes are grouped by their NC values and accept intra-group weight sharing and message passing. Extensive experiments on both homophilous and heterophilous benchmarks demonstrate that our framework can effectively separate nodes and yield significant performance improvement compared to the latest methods. The source code will be released soon.
翻訳日:2024-02-16 23:58:31 公開日:2024-02-15
# UniScene:3次元シーン再構成によるマルチカメラ統合事前トレーニング

UniScene: Multi-Camera Unified Pre-training via 3D Scene Reconstruction ( http://arxiv.org/abs/2305.18829v4 )

ライセンス: Link先を確認
Chen Min, Liang Xiao, Dawei Zhao, Yiming Nie, Bin Dai(参考訳) マルチカメラの3D認識は、LiDARベースのソリューションに代わる実用的で費用対効果の高い代替手段を提供する、自動運転における顕著な研究分野として登場した。 既存のマルチカメラアルゴリズムは主に単分子2D事前学習に依存している。 しかし、単眼2次元事前学習は、マルチカメラシステム間の空間的および時間的相関を見落としている。 この制限に対処するために,まず3dシーンを基本ステージとして再構築し,その後下流タスクでモデルを微調整する,unisceneと呼ばれる,最初のマルチカメラ統合事前学習フレームワークを提案する。 具体的には,3次元シーンの一般表現として占有度を用い,事前学習により周辺世界の幾何学的先行を把握できる。 UniScene の大きな利点は、未ラベルのイメージ-LiDAR ペアを事前トレーニングに利用できることである。 提案するマルチカメラ統一事前学習フレームワークは、マルチカメラ3dオブジェクト検出や周囲のセマンティクスシーン補完といった重要なタスクで有望な結果を示す。 nuScenesデータセットの単分子事前学習法と比較して、UniSceneはマルチカメラ3Dオブジェクト検出において、mAPが約2.0%、NDSが約2.0%、セマンティックシーン完了時のmIoUが3%向上した。 統合事前学習手法を採用することにより、3Dトレーニングアノテーションのコストを25%削減することが可能となり、現実の自律運転の実現に重要な実用的価値が提供される。 コードはhttps://github.com/chaytonmin/UniScene.comで公開されている。

Multi-camera 3D perception has emerged as a prominent research field in autonomous driving, offering a viable and cost-effective alternative to LiDAR-based solutions. The existing multi-camera algorithms primarily rely on monocular 2D pre-training. However, the monocular 2D pre-training overlooks the spatial and temporal correlations among the multi-camera system. To address this limitation, we propose the first multi-camera unified pre-training framework, called UniScene, which involves initially reconstructing the 3D scene as the foundational stage and subsequently fine-tuning the model on downstream tasks. Specifically, we employ Occupancy as the general representation for the 3D scene, enabling the model to grasp geometric priors of the surrounding world through pre-training. A significant benefit of UniScene is its capability to utilize a considerable volume of unlabeled image-LiDAR pairs for pre-training purposes. The proposed multi-camera unified pre-training framework demonstrates promising results in key tasks such as multi-camera 3D object detection and surrounding semantic scene completion. When compared to monocular pre-training methods on the nuScenes dataset, UniScene shows a significant improvement of about 2.0% in mAP and 2.0% in NDS for multi-camera 3D object detection, as well as a 3% increase in mIoU for surrounding semantic scene completion. By adopting our unified pre-training method, a 25% reduction in 3D training annotation costs can be achieved, offering significant practical value for the implementation of real-world autonomous driving. Codes are publicly available at https://github.com/chaytonmin/UniScene.
翻訳日:2024-02-16 23:57:47 公開日:2024-02-15
# DistriBlock:出力分布の特性を利用した対向音声サンプルの同定

DistriBlock: Identifying adversarial audio samples by leveraging characteristics of the output distribution ( http://arxiv.org/abs/2305.17000v2 )

ライセンス: Link先を確認
Mat\'ias P. Pizarro B., Dorothea Kolossa and Asja Fischer(参考訳) 敵対的攻撃は、自動音声認識(ASR)システムを誤って任意のターゲットテキストを予測し、明確なセキュリティ脅威を引き起こす可能性がある。 このような攻撃を防止するため,各ステップで出力トークンの確率分布を予測するASRシステムに適用可能な効率的な検出戦略であるDistriBlockを提案する。 出力確率に対する中央値,最大値,最小値,分布のエントロピー,Kulback-LeiblerおよびJensen-Shannon分散といった分布の特性を,その後の時間ステップの分布に関して測定する。 次に,良性データと逆データの両方で観測される特性を利用して,単純なしきい値に基づく分類,そのような分類器のアンサンブル,ニューラルネットワークといったバイナリ分類器を適用する。 現状のASRシステムと言語データセットを網羅的に分析することにより, 対象の対向サンプルを, 99 %, 97 %のクリーンデータに対してそれぞれ識別する受信動作特性下の平均領域で, このアプローチの最高性能を実証する。 提案手法のロバスト性を評価するため,DistriBlockを回避可能な適応的対向例は,フィルタにより検出しやすくなり,システムのロバスト性を維持するための新たな道がもたらされた。

Adversarial attacks can mislead automatic speech recognition (ASR) systems into predicting an arbitrary target text, thus posing a clear security threat. To prevent such attacks, we propose DistriBlock, an efficient detection strategy applicable to any ASR system that predicts a probability distribution over output tokens in each time step. We measure a set of characteristics of this distribution: the median, maximum, and minimum over the output probabilities, the entropy of the distribution, as well as the Kullback-Leibler and the Jensen-Shannon divergence with respect to the distributions of the subsequent time step. Then, by leveraging the characteristics observed for both benign and adversarial data, we apply binary classifiers, including simple threshold-based classification, ensembles of such classifiers, and neural networks. Through extensive analysis across different state-of-the-art ASR systems and language data sets, we demonstrate the supreme performance of this approach, with a mean area under the receiver operating characteristic for distinguishing target adversarial examples against clean and noisy data of 99\% and 97\%, respectively. To assess the robustness of our method, we show that adaptive adversarial examples that can circumvent DistriBlock are much noisier, which makes them easier to detect through filtering and creates another avenue for preserving the system's robustness.
翻訳日:2024-02-16 23:57:20 公開日:2024-02-15
# 不信頼接続下でのセキュアな垂直フェデレーション学習

Secure Vertical Federated Learning Under Unreliable Connectivity ( http://arxiv.org/abs/2305.16794v2 )

ライセンス: Link先を確認
Xinchi Qiu, Heng Pan, Wanru Zhao, Chenyang Ma, William F. Shen, Pedro P.B. Gusmao, Nicholas D. Lane(参考訳) プライバシ保存型フェデレーション学習(fl)におけるほとんどの作業は、水平分割されたデータセットに注目しており、クライアントは同じ機能を持ち、クライアントレベルのモデルを独立してトレーニングする。 しかしながら、個々のデータポイントは、垂直FL(VFL)設定でクライアントとして知られるさまざまな機関に分散することが多い。 このflのカテゴリに対処するには、参加者間の中間出力と勾配の交換が必要であり、潜在的なプライバシー漏洩リスクと収束率の低下を引き起こす。 さらに、多くの現実世界のシナリオでは、VFLトレーニングはクライアントストラグラーとドロップアウトの急激な問題に直面しています。 本稿では、最も一般化された垂直フレームワークをサポートする最初のドロップアウト耐性VFLプロトコルであるvFedSecを紹介する。 埋め込み-パディング技術とともに革新的なSecure Layerを使用することで、セキュアで効率的なモデルトレーニングを実現する。 我々は,トレーニング性能を維持しながら,設計がセキュリティを向上できることを理論的に証明する。 大規模な実験による実証的な結果は、vFedSecがクライアントのドロップアウトに対して堅牢であることを示し、無視可能な計算と通信オーバーヘッドによるセキュアなトレーニングを提供する。 広く採用されている同型暗号(HE)法と比較して,本手法は690倍の高速化を実現し,通信コストを9.6倍削減する。

Most work in privacy-preserving federated learning (FL) has focused on horizontally partitioned datasets where clients hold the same features and train complete client-level models independently. However, individual data points are often scattered across different institutions, known as clients, in vertical FL (VFL) settings. Addressing this category of FL necessitates the exchange of intermediate outputs and gradients among participants, resulting in potential privacy leakage risks and slow convergence rates. Additionally, in many real-world scenarios, VFL training also faces the acute issue of client stragglers and drop-outs, a serious challenge that can significantly hinder the training process but has been largely overlooked in existing studies. In this work, we present vFedSec, a first dropout-tolerant VFL protocol, which can support the most generalized vertical framework. It achieves secure and efficient model training by using an innovative Secure Layer alongside an embedding-padding technique. We provide theoretical proof that our design attains enhanced security while maintaining training performance. Empirical results from extensive experiments also demonstrate vFedSec is robust to client dropout and provides secure training with negligible computation and communication overhead. Compared to widely adopted homomorphic encryption (HE) methods, our approach achieves a remarkable > 690x speedup and reduces communication costs significantly by > 9.6x.
翻訳日:2024-02-16 23:56:55 公開日:2024-02-15
# neurocut:ロバストグラフ分割のためのニューラルネットワークアプローチ

NeuroCUT: A Neural Approach for Robust Graph Partitioning ( http://arxiv.org/abs/2310.11787v2 )

ライセンス: Link先を確認
Rishi Shah, Krishnanshu Jain, Sahil Manchanda, Sourav Medya and Sayan Ranu(参考訳) グラフ分割は、グラフを分離したサブセットに分割し、特定のパーティショニング目標を最適化することを目的としている。 グラフ分割に関する定式化の大部分は、その組合せの性質によりNP硬度を示す。 近似アルゴリズムやヒューリスティックスのような従来の手法は、異なる分割目的のために設計されており、他の重要な分割目的に対して一般化を達成できない。 近年,データから直接学習する機械学習手法が開発されている。 さらに、これらの手法は追加情報を運ぶノード特徴を利用するという明確な利点がある。 しかし、これらの手法は対象の分割対象関数の微分可能性を仮定し、未知の数の分割を一般化することはできない。 本研究では,従来の手法よりも2つの重要な革新を生かしたNeuroCUTを開発した。 まず、グラフニューラルネットワークから派生したノード表現と位置特徴に対して強化学習に基づくフレームワークを活用することにより、NeuroCUTは、微分不可能な関数であっても、任意の最適化目標を満たすことができる。 次に、パラメータ空間とパーティションカウントを分離し、クエリ時に提供される任意のパーティション数にNeuroCUTを誘導する。 実験的な評価により,NeuroCUTは高品質なパーティションの同定に優れ,分割対象の広い範囲にわたる強力な一般化を示し,見当たらないパーティション数に対する強力な一般化を示す。

Graph partitioning aims to divide a graph into disjoint subsets while optimizing a specific partitioning objective. The majority of formulations related to graph partitioning exhibit NP-hardness due to their combinatorial nature. Conventional methods, like approximation algorithms or heuristics, are designed for distinct partitioning objectives and fail to achieve generalization across other important partitioning objectives. Recently machine learning-based methods have been developed that learn directly from data. Further, these methods have a distinct advantage of utilizing node features that carry additional information. However, these methods assume differentiability of target partitioning objective functions and cannot generalize for an unknown number of partitions, i.e., they assume the number of partitions is provided in advance. In this study, we develop NeuroCUT with two key innovations over previous methodologies. First, by leveraging a reinforcement learning-based framework over node representations derived from a graph neural network and positional features, NeuroCUT can accommodate any optimization objective, even those with non-differentiable functions. Second, we decouple the parameter space and the partition count making NeuroCUT inductive to any unseen number of partition, which is provided at query time. Through empirical evaluation, we demonstrate that NeuroCUT excels in identifying high-quality partitions, showcases strong generalization across a wide spectrum of partitioning objectives, and exhibits strong generalization to unseen partition count.
翻訳日:2024-02-16 23:50:24 公開日:2024-02-15
# フーリエニューラル演算子の初期化バイアス:カオスのエッジの再検討

Initialization Bias of Fourier Neural Operator: Revisiting the Edge of Chaos ( http://arxiv.org/abs/2310.06379v2 )

ライセンス: Link先を確認
Takeshi Koshizuka, Masahiro Fujisawa, Yusuke Tanaka, and Issei Sato(参考訳) 本稿ではフーリエ神経演算子(FNO)の初期化バイアスについて検討する。 FNOの平均場理論が確立され、ランダムなFNOの挙動を \emph{edge of chaos} の観点から分析する。 本研究では, モード切り離しによるFNO特有の特性を示すとともに, 密結合ネットワークと類似性を示す。 この観察に基づいて,fno のカオス初期化スキームのエッジを提案し,トレーニング不安定性につながる負初期化バイアスを緩和する。 実験結果から, スキップ接続を伴わない深部FNOの安定訓練が可能な初期化方式の有効性が示された。

This paper investigates the initialization bias of the Fourier neural operator (FNO). A mean-field theory for FNO is established, analyzing the behavior of the random FNO from an \emph{edge of chaos} perspective. We uncover that the forward and backward propagation behaviors exhibit characteristics unique to FNO, induced by mode truncation, while also showcasing similarities to those of densely connected networks. Building upon this observation, we also propose an edge of chaos initialization scheme for FNO to mitigate the negative initialization bias leading to training instability. Experimental results show the effectiveness of our initialization scheme, enabling stable training of deep FNO without skip-connection.
翻訳日:2024-02-16 23:50:00 公開日:2024-02-15
# 政策マージによるフリートラーニング

Fleet Learning via Policy Merging ( http://arxiv.org/abs/2310.01362v2 )

ライセンス: Link先を確認
Lirui Wang, Kaiqing Zhang, Allan Zhou, Max Simchowitz, Russ Tedrake(参考訳) ロボットの群れは、環境と対話することによって生成される大量の異種ストリーミングデータサイロを、保存したり、簡単に送信したりできるものよりもはるかに多く摂取する。 同時に、ロボットのチームは様々な環境で異種体験を通じて多様なスキルを共用すべきである。 艦隊規模のデータの送信や集中化を必要とせずに、このような艦隊レベルの学習を可能にするにはどうすればいいのか? 本稿では,分散不均質データセットからのポリシマージ(pome)を潜在的なソリューションとして検討する。 FLEET-MERGE(FleET-MERGE)は、繰り返しニューラルネットワークによる制御ポリシのパラメータ化時に発生する変分不変性を考慮した分散学習のインスタンス化である。 本稿では,FLEET-MERGEが,メタワールド環境における50のタスクで訓練されたポリシーの挙動を,ほぼ全てのトレーニングタスクにおいて良好な性能で強化することを示す。 さらに,本ベンチマークにおけるfleet-mergeの有効性を検証するために,合成および接触の多いロボット操作タスクにおけるフリートポリシー学習のための新しいロボットツール利用ベンチマークであるfleet-toolsを提案する。

Fleets of robots ingest massive amounts of heterogeneous streaming data silos generated by interacting with their environments, far more than what can be stored or transmitted with ease. At the same time, teams of robots should co-acquire diverse skills through their heterogeneous experiences in varied settings. How can we enable such fleet-level learning without having to transmit or centralize fleet-scale data? In this paper, we investigate policy merging (PoMe) from such distributed heterogeneous datasets as a potential solution. To efficiently merge policies in the fleet setting, we propose FLEET-MERGE, an instantiation of distributed learning that accounts for the permutation invariance that arises when parameterizing the control policies with recurrent neural networks. We show that FLEET-MERGE consolidates the behavior of policies trained on 50 tasks in the Meta-World environment, with good performance on nearly all training tasks at test time. Moreover, we introduce a novel robotic tool-use benchmark, FLEET-TOOLS, for fleet policy learning in compositional and contact-rich robot manipulation tasks, to validate the efficacy of FLEET-MERGE on the benchmark.
翻訳日:2024-02-16 23:49:49 公開日:2024-02-15
# 空間効率・ノイズローバスト量子ファクタリング

Space-Efficient and Noise-Robust Quantum Factoring ( http://arxiv.org/abs/2310.00899v2 )

ライセンス: Link先を確認
Seyoon Ragavan, Vinod Vaikuntanathan(参考訳) 我々はRegevの最近の量子ファクタリングアルゴリズム(arXiv:2308.06572)に2つの改良を加え、その空間効率と耐雑音性に対処する。 最初の貢献は、回路サイズを同じに保ちながら、Regevのアルゴリズムの量子空間効率を改善することである。 我々の主な結果は、$O(n \log n)$ qubits と $O(n^{3/2} \log n)$ gates を用いて量子ファクタリング回路を構成する。 我々はShorとRegev(空間複雑性の対数係数まで)のベストを達成する:一方、Regevの回路は$O(n^{3/2})$ qubitsと$O(n^{3/2} \log n)$ gates、Shorの回路は$O(n^2 \log n)$ gatesだが$O(n)$ qubitsしか必要としない。 Regev と同様に、$n$-bit 整数 $N$ を係数として、我々は独立に $\approx \sqrt{n}$ times を実行し、Regev の古典的な後処理手順を適用する。 我々の最適化は、古典的可逆設定から量子設定へのカリスキー(arXiv:1711.02491)による2の通常のパワーよりも、指数のフィボナッチ数による効率的で可逆的な指数化を実装することで達成される。 この技術は、空間と大きさの両方で効率のよい量子モジュラー指数を、かなりの事前計算を必要とせず実行することが可能であり、これは他の量子アルゴリズムに有用である。 拡張実装の重要な要素は,量子量子量子量子モジュラー乗法に類似した関数の効率的な回路である。 第二の貢献は、レゲフの古典的な後処理手順が量子回路の一定の部分の誤りを許容するために修正可能であることを示すことである。 対照的に、Regevの古典的な後処理手順の分析では、すべての$\approx \sqrt{n}$の実行が成功する必要がある。 一言で言えば、劣化したサンプルを検出・フィルタリングするために格子還元技術を用いてこれを達成する。

We provide two improvements to Regev's recent quantum factoring algorithm (arXiv:2308.06572), addressing its space efficiency and its noise-tolerance. Our first contribution is to improve the quantum space efficiency of Regev's algorithm while keeping the circuit size the same. Our main result constructs a quantum factoring circuit using $O(n \log n)$ qubits and $O(n^{3/2} \log n)$ gates. We achieve the best of Shor and Regev (upto a logarithmic factor in the space complexity): on the one hand, Regev's circuit requires $O(n^{3/2})$ qubits and $O(n^{3/2} \log n)$ gates, while Shor's circuit requires $O(n^2 \log n)$ gates but only $O(n)$ qubits. As with Regev, to factor an $n$-bit integer $N$, we run our circuit independently $\approx \sqrt{n}$ times and applies Regev's classical postprocessing procedure. Our optimization is achieved by implementing efficient and reversible exponentiation with Fibonacci numbers in the exponent, rather than the usual powers of 2, adapting work by Kaliski (arXiv:1711.02491) from the classical reversible setting to the quantum setting. This technique also allows us to perform quantum modular exponentiation that is efficient in both space and size without requiring significant precomputation, a result that may be useful for other quantum algorithms. A key ingredient of our exponentiation implementation is an efficient circuit for a function resembling in-place quantum-quantum modular multiplication. Our second contribution is to show that Regev's classical postprocessing procedure can be modified to tolerate a constant fraction of the quantum circuit runs being corrupted by errors. In contrast, Regev's analysis of his classical postprocessing procedure requires all $\approx \sqrt{n}$ runs to be successful. In a nutshell, we achieve this using lattice reduction techniques to detect and filter out corrupt samples.
翻訳日:2024-02-16 23:49:30 公開日:2024-02-15
# グローバル深層学習による治療反応予測と患者特異的薬物動態予測

Forecasting Response to Treatment with Global Deep Learning and Patient-Specific Pharmacokinetic Priors ( http://arxiv.org/abs/2309.13135v6 )

ライセンス: Link先を確認
Willa Potosnak, Cristian Challu, Kin G. Olivares, Artur Dubrawski(参考訳) 予後の早期発見や患者のモニタリングには,医療時系列の予測が不可欠である。 しかし、ノイズや間欠的なデータのために予測が難しい場合がある。 これらの課題は、薬物投与などの外因性要因によって引き起こされる変化点によって、しばしば悪化する。 これらの課題に対処するために,患者固有の治療効果の深層学習モデルを示す,新しいグローバルローカルアーキテクチャと薬物動態エンコーダを提案する。 現実的にシミュレーションされた実世界データと実世界データの両方を用いて,血糖予測タスクの精度向上に向けたアプローチの有効性を示す。 我々のグローバルローカルアーキテクチャは患者固有のモデルよりも9.2-14.6%改善している。 さらに、我々の薬物動態エンコーダは、シミュレーションデータでは4.4%、実世界のデータでは2.1%で代替符号化技術よりも改善されている。 提案手法は, 予期せぬ治療反応に対する早期警告の発行や, 薬物吸収および除去特性の観点から, 患者固有の治療効果を特徴付けるなど, 臨床実践において有益である。

Forecasting healthcare time series is crucial for early detection of adverse outcomes and for patient monitoring. Forecasting, however, can be difficult in practice due to noisy and intermittent data. The challenges are often exacerbated by change points induced via extrinsic factors, such as the administration of medication. To address these challenges, we propose a novel hybrid global-local architecture and a pharmacokinetic encoder that informs deep learning models of patient-specific treatment effects. We showcase the efficacy of our approach in achieving significant accuracy gains for a blood glucose forecasting task using both realistically simulated and real-world data. Our global-local architecture improves over patient-specific models by 9.2-14.6%. Additionally, our pharmacokinetic encoder improves over alternative encoding techniques by 4.4% on simulated data and 2.1% on real-world data. The proposed approach can have multiple beneficial applications in clinical practice, such as issuing early warnings about unexpected treatment responses, or helping to characterize patient-specific treatment effects in terms of drug absorption and elimination characteristics.
翻訳日:2024-02-16 23:48:47 公開日:2024-02-15
# conr: 深い不均衡回帰のための対比正規化器

ConR: Contrastive Regularizer for Deep Imbalanced Regression ( http://arxiv.org/abs/2309.06651v3 )

ライセンス: Link先を確認
Mahsa Keramati, Lili Meng, R. David Evans(参考訳) 不均衡分布は実世界データにおいてユビキタスである。 マイノリティラベルを表現し、多数派ラベルへの偏見を避けるため、Deep Neural Networksに制約を課す。 不均衡なアプローチの広範な本体は分類ラベル空間に対処するが、ラベル空間が連続である回帰問題に効果的に拡張できない。 連続ラベル間の局所的およびグローバル的相関は、特徴空間における関係を効果的にモデル化するための貴重な洞察を提供する。 本研究では,特徴空間におけるグローバルおよびローカルなラベル類似性をモデル化し,少数のサンプルの特徴が多数派に崩壊することを防ぐコントラストレギュレータを提案する。 ConRはラベル空間と特徴空間の相違を認識し、これらの相違に対してペナルティを課す。 ConRは2つの主要な戦略でラベル空間の連続的な性質を対照的に扱い、不正確な近さはラベル類似度に比例して罰せられ、正しいものは局所類似度をモデル化するよう奨励される。 ConRは、深い不均衡な回帰に効果的に対処する、ジェネリックで、容易に統合され、効率的な方法に重要な考慮事項を集約する。 さらに、ConRは既存のアプローチと直交し、一次元および多次元のラベル空間に滑らかに拡張する。 総合実験の結果,conrは4つの大規模深部不均衡回帰ベンチマークにおいて,最先端手法の性能を著しく向上させることがわかった。 私たちのコードはhttps://github.com/borealisai/conrで公開されています。

Imbalanced distributions are ubiquitous in real-world data. They create constraints on Deep Neural Networks to represent the minority labels and avoid bias towards majority labels. The extensive body of imbalanced approaches address categorical label spaces but fail to effectively extend to regression problems where the label space is continuous. Local and global correlations among continuous labels provide valuable insights towards effectively modelling relationships in feature space. In this work, we propose ConR, a contrastive regularizer that models global and local label similarities in feature space and prevents the features of minority samples from being collapsed into their majority neighbours. ConR discerns the disagreements between the label space and feature space and imposes a penalty on these disagreements. ConR addresses the continuous nature of label space with two main strategies in a contrastive manner: incorrect proximities are penalized proportionate to the label similarities and the correct ones are encouraged to model local similarities. ConR consolidates essential considerations into a generic, easy-to-integrate, and efficient method that effectively addresses deep imbalanced regression. Moreover, ConR is orthogonal to existing approaches and smoothly extends to uni- and multi-dimensional label spaces. Our comprehensive experiments show that ConR significantly boosts the performance of all the state-of-the-art methods on four large-scale deep imbalanced regression benchmarks. Our code is publicly available in https://github.com/BorealisAI/ConR.
翻訳日:2024-02-16 23:48:28 公開日:2024-02-15
# 生成型adversarial neural operatorsによる広帯域動画像合成:開発と検証

Broadband Ground Motion Synthesis via Generative Adversarial Neural Operators: Development and Validation ( http://arxiv.org/abs/2309.03447v3 )

ライセンス: Link先を確認
Yaozhong Shi, Grigorios Lavrentiadis, Domniki Asimaki, Zachary E. Ross, Kamyar Azizzadenesheli(参考訳) 本稿では,3成分加速度履歴をモーメントマグニチュード,破断距離,平均せん断波速度の最高値である30m$(V_{S30}$)で生成する地動合成のためのデータ駆動フレームワークについて述べる。 データサンプリング周波数に依存しないモデルトレーニングを保証する,分解能不変アーキテクチャであるgano(generative adversarial neural operator)を用いる。 まず,条件付き地動合成アルゴリズム(cgm-gano)を提案し,その利点について検討する。 次に,南カリフォルニア地震センター・ブロードバンド・プラットフォーム(BBP)と記録したKK-netデータを用いて,実効振幅スペクトル(EAS)のスケールと擬スペクトル加速度(PSA)の総合的な等級,距離,V_{S30}$のスケールを学習可能であることを示す。 以上の結果から, cGM-GANOは, 十分なデータカバレッジを有するシナリオに対して, 幅広い周波数で, 対応するテクトニクス環境のトレーニングデータと一貫した中央値のスケーリングを生成することが示された。 BBPデータセットでは,cGM-GANOは確率周波数成分の基底運動のスケーリングを学べず,KiK-netデータセットでは,このようなデータの不足により,短距離および柔らかい土壌条件で最大の不適合が観測される。 これらの条件を除いて、ESAとPSAの気道変動は合理的に捉えられる。 最後に、cGM-GANO は、PSA と EAS の両方で 1Hz 以上の周波数で従来の GMM と同様の中央値のスケーリングを生成するが、EAS の共振変動を過小評価する。 合成地盤運動とGMMの比較の相違は、トレーニングデータセットとGMM開発で使用されるデータセットとの矛盾に起因する。 広帯域地盤運動の効率的な合成におけるGANOの可能性

We present a data-driven framework for ground-motion synthesis that generates three-component acceleration time histories conditioned on moment magnitude, rupture distance , time-average shear-wave velocity at the top $30m$ ($V_{S30}$), and style of faulting. We use a Generative Adversarial Neural Operator (GANO), a resolution invariant architecture that guarantees model training independent of the data sampling frequency. We first present the conditional ground-motion synthesis algorithm (cGM-GANO) and discuss its advantages compared to previous work. We next train cGM-GANO on simulated ground motions generated by the Southern California Earthquake Center Broadband Platform (BBP) and on recorded KiK-net data and show that the model can learn the overall magnitude, distance, and $V_{S30}$ scaling of effective amplitude spectra (EAS) ordinates and pseudo-spectral accelerations (PSA). Results specifically show that cGM-GANO produces consistent median scaling with the training data for the corresponding tectonic environments over a wide range of frequencies for scenarios with sufficient data coverage. For the BBP dataset, cGM-GANO cannot learn the ground motion scaling of the stochastic frequency components; for the KiK-net dataset, the largest misfit is observed at short distances and for soft soil conditions due to the scarcity of such data. Except for these conditions, the aleatory variability of EAS and PSA are captured reasonably well. Lastly, cGM-GANO produces similar median scaling to traditional GMMs for frequencies greater than 1Hz for both PSA and EAS but underestimates the aleatory variability of EAS. Discrepancies in the comparisons between the synthetic ground motions and GMMs are attributed to inconsistencies between the training dataset and the datasets used in GMM development. Our pilot study demonstrates GANO's potential for efficient synthesis of broad-band ground motions
翻訳日:2024-02-16 23:48:04 公開日:2024-02-15
# 線形マルコフ決定過程におけるレート最適政策最適化

Rate-Optimal Policy Optimization for Linear Markov Decision Processes ( http://arxiv.org/abs/2308.14642v2 )

ライセンス: Link先を確認
Uri Sherman, Alon Cohen, Tomer Koren, Yishay Mansour(参考訳) 我々はオンラインのエピソディック線形マルコフ決定過程における後悔の最小化を研究し、レートオプティマイズである$\widetilde o (\sqrt k)$ regret を得る。 我々の研究は、政策最適化に基づくアプローチを用いて、確率的設定における最適(w.r.t.~$K$)収束率と、最適(w.r.t.~$K$)速度を、完全な情報フィードバックを備えた対向的な設定で確立した最初のものである。

We study regret minimization in online episodic linear Markov Decision Processes, and obtain rate-optimal $\widetilde O (\sqrt K)$ regret where $K$ denotes the number of episodes. Our work is the first to establish the optimal (w.r.t.~$K$) rate of convergence in the stochastic setting with bandit feedback using a policy optimization based approach, and the first to establish the optimal (w.r.t.~$K$) rate in the adversarial setup with full information feedback, for which no algorithm with an optimal rate guarantee is currently known.
翻訳日:2024-02-16 23:47:27 公開日:2024-02-15
# 単一繰り返し動作による量子次元証人

Quantum dimension witness with a single repeated operation ( http://arxiv.org/abs/2308.11246v2 )

ライセンス: Link先を確認
Tomasz Bia{\l}ecki, Tomasz Rybotycki, Josep Batle, Adam Bednorz(参考訳) 本稿では,各インスタンスが同一かつ独立であることを前提として,遅延法における1つの繰り返し演算を用いて,量子系の次元の単純なヌル検定を行う。 このテストは、プログラムされたゲートを持つ現在の実現可能な量子技術に適している。 また、単体またはほぼ単体操作を仮定し、統計的誤差の式を導出する、テストの弱いバージョンも分析する。 テストの有効性はIBM Quantumで実証されている。 テストされたデバイスの1つの障害は、その後のゲート間のアイデンティティの欠如や、多くの世界/コピーモデルにおける余剰次元を示す可能性がある。

We present a simple null test of a dimension of a quantum system, using a single repeated operation in the method of delays, assuming that each instance is identical and independent. The test is well-suited to current feasible quantum technologies, with programed gates. We also analyze weaker versions of the test, assuming unitary or almost unitary operations and derive expressions for the statistical error. The feasibility of the test is demonstrated on IBM Quantum. The failure in one of the tested devices can indicate a lack of identity between subsequent gates or an extra dimension in the many worlds/copies model.
翻訳日:2024-02-16 23:47:11 公開日:2024-02-15
# マルチフォノン励起による六方晶窒化ホウ素のフィンガープリント欠陥

Fingerprinting Defects in Hexagonal Boron Nitride via Multi-Phonon Excitation ( http://arxiv.org/abs/2308.09018v2 )

ライセンス: Link先を確認
Pablo Tieben and Andreas W. Schell(参考訳) 六方晶窒化ホウ素の単一光子放出体は、その好ましい放出特性と応用可能な多様体のために多くの注目を集めている。 科学的な努力にもかかわらず、これらのエミッターの正確な原子源は未だ未発見である。 近年では、黄色のスペクトル領域の放出と炭素関連の欠陥が関係しているが、欠陥の正確な原子構造は未解明のままである。 本研究では、この領域内の多数のエミッタに対して発光発光と励起分光を行う。 実験データと理論予測との比較により, 六方晶窒化ホウ素中の黄色の単一光子放出の起源が決定された。 この原子構造とその光学的性質の知識は、量子技術におけるこれらのエミッタの信頼性の高い実装に不可欠である。

Single photon emitters in hexagonal boron nitride have gathered a lot of attention due to their favourable emission properties and the manifold of possible applications. Despite extensive scientific effort, the exact atomic origin of these emitters has remained unkown thus far. Recently, several studies have tied the emission in the yellow spectral region to carbon-related defects, but the exact atomic structure of the defects remains elusive. In this study, photoluminescence emission and excitation spectroscopy is performed on a large number of emitters within this region. By comparison of the experimental data with theoretical predictions, the origin of yellow single photon emission in hexagonal boron nitride is determined. Knowledge of this atomic structure and its optical properties is crucial for the reliable implementation of these emitters in quantum technologies.
翻訳日:2024-02-16 23:47:01 公開日:2024-02-15
# 暗黙のグラフニューラルネットワーク拡散ネットワーク : 収束、一般化、過剰スムーシング

Implicit Graph Neural Diffusion Networks: Convergence, Generalization, and Over-Smoothing ( http://arxiv.org/abs/2308.03306v2 )

ライセンス: Link先を確認
Guoji Fu, Mohammed Haroon Dupty, Yanfei Dong, Lee Wee Sun(参考訳) Inlicit Graph Neural Networks (GNN)は近年,グラフ学習問題に対処する上で大きな成功を収めている。 しかし、設計が不十分な暗黙のGNN層は、グラフのメトリクスを学習したり、過度に平滑な問題を経験したり、最適下限収束と一般化特性を示すために適応性に制限がある可能性がある。 これらの問題に対処するために,パラメタライズドグラフラプラシアン演算子に基づく暗黙的グラフ拡散層を設計するための幾何学的枠組みを提案する。 我々のフレームワークは、頂点とエッジ空間のメトリクスと、データからグラフ拡散強度を学習することができる。 我々は,ディリクレエネルギー最小化問題の固定点方程式として,暗黙のGNN層がいかに見えるかを示し,トレーニング中(OST)と推論中(OSI)の過度な平滑化に悩まされる可能性のある条件を示す。 さらに,OSTとOSIを避けるために,新たな暗黙的GNNモデルを提案する。 パラメータ化グラフ Laplacian の最大固有値より大きい適切な選択されたハイパーパラメータで、DIGNN は独自の平衡、高速収束、強い一般化境界を保証する。 我々のモデルは、ノード分類タスクとグラフ分類タスクのベンチマークデータセット上で、最も暗黙的で明示的なGNNベースラインよりも優れたパフォーマンスを示す。

Implicit Graph Neural Networks (GNNs) have achieved significant success in addressing graph learning problems recently. However, poorly designed implicit GNN layers may have limited adaptability to learn graph metrics, experience over-smoothing issues, or exhibit suboptimal convergence and generalization properties, potentially hindering their practical performance. To tackle these issues, we introduce a geometric framework for designing implicit graph diffusion layers based on a parameterized graph Laplacian operator. Our framework allows learning the metrics of vertex and edge spaces, as well as the graph diffusion strength from data. We show how implicit GNN layers can be viewed as the fixed-point equation of a Dirichlet energy minimization problem and give conditions under which it may suffer from over-smoothing during training (OST) and inference (OSI). We further propose a new implicit GNN model to avoid OST and OSI. We establish that with an appropriately chosen hyperparameter greater than the largest eigenvalue of the parameterized graph Laplacian, DIGNN guarantees a unique equilibrium, quick convergence, and strong generalization bounds. Our models demonstrate better performance than most implicit and explicit GNN baselines on benchmark datasets for both node and graph classification tasks.
翻訳日:2024-02-16 23:46:50 公開日:2024-02-15
# 社会目的関数によるソーシャルメディアAIへの民主的価値の埋め込み

Embedding Democratic Values into Social Media AIs via Societal Objective Functions ( http://arxiv.org/abs/2307.13912v3 )

ライセンス: Link先を確認
Chenyan Jia, Michelle S. Lam, Minh Chau Mai, Jeff Hancock, Michael S. Bernstein(参考訳) ソーシャルメディアフィードをランク付けする人工知能(AI)システムを設計すれば、その目的機能の一部としてパルチザンの敵意を緩和するような民主的価値を考慮できるだろうか? 本稿では, 確立された社会的科学的構成を社会目的関数と呼ぶai目的関数に翻訳する手法を紹介し, 反民主主義的態度の政治科学構築への応用を実証する。 伝統的に、そのようなモデルをトレーニングするための観測可能な成果は得られていないが、社会科学はこれらの構築物に対する調査機器や定性的コードブックを開発し、その精度は大規模言語モデルの詳細なプロンプトへの翻訳を容易にする。 本稿では,ソーシャルメディア投稿が反民主的態度を促進する程度を推定する民主的態度モデルを作成し,この民主的態度モデルを3つの研究で検証する。 研究1では,米国パルチザン間の介入(n=1,380)が,反民主主義的態度スコアを付したソーシャルメディア投稿(アルファ=.895)に手作業で注釈を付け,これらのスコアに基づいて複数のフィードランキング条件をテストし,行動的効果を最初に検証した。 削除(d=.20)と下級のフィード(d=.25)は、参加者の経験やエンゲージメントを損なうことなく、パルチザンの敵意を減らした。 研究2では, 民主的態度モデルを作成し, マニュアルラベルとの強い合意を求めることで, マニュアルラベルをスケールアップする(rho=.75)。 最後に,研究3では,手動ラベルの代わりに民主的態度モデルを用いて研究1を再現し,その姿勢的・行動的影響(N=558)を検証した。 本手法は,ソーシャルメディアAIにおける社会的害を軽減するために,社会科学理論と手法に基づく新たな戦略を提案する。

Can we design artificial intelligence (AI) systems that rank our social media feeds to consider democratic values such as mitigating partisan animosity as part of their objective functions? We introduce a method for translating established, vetted social scientific constructs into AI objective functions, which we term societal objective functions, and demonstrate the method with application to the political science construct of anti-democratic attitudes. Traditionally, we have lacked observable outcomes to use to train such models, however, the social sciences have developed survey instruments and qualitative codebooks for these constructs, and their precision facilitates translation into detailed prompts for large language models. We apply this method to create a democratic attitude model that estimates the extent to which a social media post promotes anti-democratic attitudes, and test this democratic attitude model across three studies. In Study 1, we first test the attitudinal and behavioral effectiveness of the intervention among US partisans (N=1,380) by manually annotating (alpha=.895) social media posts with anti-democratic attitude scores and testing several feed ranking conditions based on these scores. Removal (d=.20) and downranking feeds (d=.25) reduced participants' partisan animosity without compromising their experience and engagement. In Study 2, we scale up the manual labels by creating the democratic attitude model, finding strong agreement with manual labels (rho=.75). Finally, in Study 3, we replicate Study 1 using the democratic attitude model instead of manual labels to test its attitudinal and behavioral impact (N=558), and again find that the feed downranking using the societal objective function reduced partisan animosity (d=.25). This method presents a novel strategy to draw on social science theory and methods to mitigate societal harms in social media AIs.
翻訳日:2024-02-16 23:46:24 公開日:2024-02-15
# 状態判別による標準量子理論の導出

Derivation of Standard Quantum Theory via State Discrimination ( http://arxiv.org/abs/2307.11271v4 )

ライセンス: Link先を確認
Hayato Arai and Masahito Hayashi(参考訳) 一般的なモデルから標準量子論のモデルを操作条件で特徴付けることは重要な問題である。 GPT(General Probabilistic Theories)の枠組みは、標準量子論を単一化するための新しい情報理論のアプローチである。 従来の性質、例えばベル-CHSHの不等式は、GPTの可能なモデルの中で標準量子論を選別するのに十分ではないことが知られている。 より正確な特性として、一般的なモデルにおける状態識別と呼ばれる情報タスクのパフォーマンスの限界に焦点を当てる。 我々は、標準量子論の下で最小判別誤差確率を上回る等価条件を与え、これはトレースノルムによって与えられる。 さらに、等価条件を適用することで、状態判別のパフォーマンスのバウンダリによって、GPTの一般モデルから標準量子理論を特徴づける。

It is a key issue to characterize the model of standard quantum theory out of general models by an operational condition. The framework of General Probabilistic Theories (GPTs) is a new information theoretical approach to single out standard quantum theory. It is known that traditional properties, for example, Bell-CHSH inequality are not sufficient to single out standard quantum theory among possible models in GPTs. As a more precise property, we focus on the bound of the performance for an information task called state discrimination in general models. We give an equivalent condition for outperforming the minimum discrimination error probability under the standard quantum theory, which is given by the trace norm. Besides, by applying the equivalent condition, we characterize standard quantum theory out of general models in GPTs by the bound of the performance for state discrimination.
翻訳日:2024-02-16 23:45:46 公開日:2024-02-15
# 知能の性質は

The Nature of Intelligence ( http://arxiv.org/abs/2307.11114v2 )

ライセンス: Link先を確認
Barco Jie You(参考訳) 人間の脳は人間の知能の基盤である。 人間の脳をシミュレートすることで、人工知能は学習能力を持つ計算モデルを構築し、人間のレベルに近づくインテリジェントなタスクを実行する。 ディープニューラルネットワークは、データの表現を学習し、多くの認識領域における最先端を改善するために複数の計算層から構成される。 しかし、人間とAIの両方で一般的に表現される知性の本質は不明である。 ここで、知能の性質は、空間と時間上のデータセット間の機能的関係を確立することによって、システムエントロピーを最小化する一連の数学的機能的プロセスであることを示す。 人間とAIは、エネルギーを消費する強化された方法でこれらのエントロピー還元プロセスを実装することで知性を達成した。 この仮説により、言語、無意識、意識の数学的モデルを確立し、神経科学によって発見され、AI工学によって達成される証拠を予測する。 さらに、宇宙の全体エントロピーは保守的であると結論付け、知性は宇宙にもともと存在するが時間と空間にまたがって分離された物理的または情報的に連結されたデータセットによってエントロピーを減少させる自発的なプロセスに逆らう。 このエッセイは、宇宙と私たちを人間としてより深く理解するための出発点であり、人間の知性にかかわる高度なAIモデルを達成するためのものであるべきです。 さらに、このエッセイは、エントロピーをより効率的なエネルギー消費方法で減らせば、人間よりも高度な知性が存在するべきだと主張している。

The human brain is the substrate for human intelligence. By simulating the human brain, artificial intelligence builds computational models that have learning capabilities and perform intelligent tasks approaching the human level. Deep neural networks consist of multiple computation layers to learn representations of data and improve the state-of-the-art in many recognition domains. However, the essence of intelligence commonly represented by both humans and AI is unknown. Here, we show that the nature of intelligence is a series of mathematically functional processes that minimize system entropy by establishing functional relationships between datasets over the space and time. Humans and AI have achieved intelligence by implementing these entropy-reducing processes in a reinforced manner that consumes energy. With this hypothesis, we establish mathematical models of language, unconsciousness and consciousness, predicting the evidence to be found by neuroscience and achieved by AI engineering. Furthermore, a conclusion is made that the total entropy of the universe is conservative, and the intelligence counters the spontaneous processes to decrease entropy by physically or informationally connecting datasets that originally exist in the universe but are separated across the space and time. This essay should be a starting point for a deeper understanding of the universe and us as human beings and for achieving sophisticated AI models that are tantamount to human intelligence or even superior. Furthermore, this essay argues that more advanced intelligence than humans should exist if only it reduces entropy in a more efficient energy-consuming way.
翻訳日:2024-02-16 23:45:35 公開日:2024-02-15
# ハミルトン固有値変換のための普遍アルゴリズム

Universal algorithm for transforming Hamiltonian eigenvalues ( http://arxiv.org/abs/2312.08848v3 )

ライセンス: Link先を確認
Tatsuki Odake, Hl\'er Kristj\'ansson, Philip Taranto, Mio Murao(参考訳) 物理系を管理するハミルトニアンを操作することは、量子化学から半導体設計まで幅広い応用を見出した。 本研究では,固有値を変化させながら固有値を変化させることで,ハミルトニアンを操作する新しい方法を提案する。 我々は、任意の未知ハミルトニアンの固有値に対して所望の(好ましくは微分可能な)関数を決定的に実装する普遍的アルゴリズムを開発し、その正時および負時ダイナミクスはブラックボックスとして与えられる。 本アルゴリズムは相関ランダム性を用いて2つのサブルーチン - 名前付き制御とフーリエ級数シミュレーション -- を効率的に組み合わせ、我々が開発する一般的なコンパイル手順を例示する。 このアルゴリズムのランタイムは、サブルーチンのna\"ive concatenationと比較してコンパイルによって大幅に削減され、量子特異値変換に基づく類似メソッドよりも優れています。 最後に、負時間ダイナミクスの必要性を回避するために、補助キュービットを追加することなく正時間から負時間ダイナミクスに変換する普遍的アルゴリズムを提案する。

Manipulating Hamiltonians governing physical systems has found a broad range of applications, from quantum chemistry to semiconductor design. In this work, we provide a new way of manipulating Hamiltonians, by transforming their eigenvalues while keeping their eigenstates unchanged. We develop a universal algorithm that deterministically implements any desired (suitably differentiable) function on the eigenvalues of any unknown Hamiltonian, whose positive-time and negative-time dynamics are given as a black box. Our algorithm uses correlated randomness to efficiently combine two subroutines -- namely controlization and Fourier series simulation -- exemplifying a general compilation procedure that we develop. The runtime of our algorithm is significantly reduced using compilation compared to a na\"ive concatenation of the subroutines and outperforms similar methods based on the quantum singular value transformation. Finally, to circumvent the need for the negative-time dynamics, we present a universal algorithm to transform positive-time to negative-time dynamics without adding an auxiliary qubit, which could also be of standalone interest.
翻訳日:2024-02-16 23:37:08 公開日:2024-02-15
# 予測可能な頂点障害に対するコネクティビティオラクル

Connectivity Oracles for Predictable Vertex Failures ( http://arxiv.org/abs/2312.08489v2 )

ライセンス: Link先を確認
Bingbing Hu, Evangelos Kosinas, Adam Polak(参考訳) 頂点障害をサポートする接続オーラクルを設計する問題は、無向グラフの基本的なデータ構造問題の一つである。 先行研究[Duan-Pettie STOC'10; Long-Saranurak FOCS'22] は、失敗した頂点数でクエリ時間線形を達成しており、グラフのサイズで前処理時間多項式、失敗した頂点数で更新時間多項式を必要とする限り条件的に最適である。 我々は、この問題を予測を伴うアルゴリズムのパラダイムで再考する: 失敗する頂点のセットを、少数のエラーまで事前に予測できれば、クエリ時間を改善することができるかどうかを問う。 More specifically, we design a data structure that, given a graph $G=(V,E)$ and a set of vertices predicted to fail $\widehat{D} \subseteq V$ of size $d=|\widehat{D}|$, preprocesses it in time $\tilde{O}(d|E|)$ and then can receive an update given as the symmetric difference between the predicted and the actual set of failed vertices $\widehat{D} \triangle D = (\widehat{D} \setminus D) \cup (D \setminus \widehat{D})$ of size $\eta = |\widehat{D} \triangle D|$, process it in time $\tilde{O}(\eta^4)$, and after that answer connectivity queries in $G \setminus D$ in time $O(\eta)$. 別の観点から見ると、我々のデータ構造は \emph{sensitivity setting} [Henzinger--Neumann ESA'16] における \emph{fully dynamic subgraph connection problem} の技法の状態を改善します。 データ構造の前処理時間とクエリ時間は、標準的なきめ細かい複雑性仮定の下で条件的に最適である。

The problem of designing connectivity oracles supporting vertex failures is one of the basic data structures problems for undirected graphs. It is already well understood: previous works [Duan--Pettie STOC'10; Long--Saranurak FOCS'22] achieve query time linear in the number of failed vertices, and it is conditionally optimal as long as we require preprocessing time polynomial in the size of the graph and update time polynomial in the number of failed vertices. We revisit this problem in the paradigm of algorithms with predictions: we ask if the query time can be improved if the set of failed vertices can be predicted beforehand up to a small number of errors. More specifically, we design a data structure that, given a graph $G=(V,E)$ and a set of vertices predicted to fail $\widehat{D} \subseteq V$ of size $d=|\widehat{D}|$, preprocesses it in time $\tilde{O}(d|E|)$ and then can receive an update given as the symmetric difference between the predicted and the actual set of failed vertices $\widehat{D} \triangle D = (\widehat{D} \setminus D) \cup (D \setminus \widehat{D})$ of size $\eta = |\widehat{D} \triangle D|$, process it in time $\tilde{O}(\eta^4)$, and after that answer connectivity queries in $G \setminus D$ in time $O(\eta)$. Viewed from another perspective, our data structure provides an improvement over the state of the art for the \emph{fully dynamic subgraph connectivity problem} in the \emph{sensitivity setting} [Henzinger--Neumann ESA'16]. We argue that the preprocessing time and query time of our data structure are conditionally optimal under standard fine-grained complexity assumptions.
翻訳日:2024-02-16 23:36:50 公開日:2024-02-15
# 量子電気回路に関する講義ノート

Lecture Notes on Quantum Electrical Circuits ( http://arxiv.org/abs/2312.05329v2 )

ライセンス: Link先を確認
Alessandro Ciani, David P. DiVincenzo, Barbara M. Terhal(参考訳) 過去30年間、超伝導量子プロセッサの探求によって刺激を受け、量子電気回路の理論が浮上し、この理論は回路量子電磁力学( circuit quantum electrodynamics)または回路qed( circuit-qed)の名前で呼ばれる。 この理論の目標は、最も関連する自由度に関する量子記述を提供することである。 研究の対象はラグランジアンとハミルトニアンであり、これらの自由度を統治している。 インピーダンスや散乱行列のような古典的ネットワーク理論の中心的な概念は、回路の損失のない(線形)部分に対するハミルトニアンおよびラグランジュの記述を得るために用いられる。 古典的および量子的解析法は、非相互回路に対しても開発することができる。 これらの講義ノートは、物理学や電気工学における理論指向の修士または博士課程の学生や、実験超伝導量子デバイスに携わるマスターと博士課程の学生に対して、このテーマの教育的概要を提供することを目的としている。

During the last 30 years, stimulated by the quest to build superconducting quantum processors, a theory of quantum electrical circuits has emerged and this theory goes under the name of circuit quantum electrodynamics or circuit-QED. The goal of the theory is to provide a quantum description of the most relevant degrees of freedom. The central objects to be derived and studied are the Lagrangian and the Hamiltonian governing these degrees of freedom. Central concepts in classical network theory such as impedance and scattering matrices can be used to obtain the Hamiltonian and Lagrangian description for the lossless (linear) part of the circuits. Methods of analysis, both classical and quantum, can also be developed for nonreciprocal circuits. These lecture notes aim at giving a pedagogical overview of this subject for theoretically-oriented Master or PhD students in physics and electrical engineering, as well as Master and PhD students who work on experimental superconducting quantum devices and wish to learn more theory.
翻訳日:2024-02-16 23:36:17 公開日:2024-02-15
# 異種臨床および低磁場可搬MRIにおける白質超強度と脳容積の定量化

Quantifying white matter hyperintensity and brain volumes in heterogeneous clinical and low-field portable MRI ( http://arxiv.org/abs/2312.05119v2 )

ライセンス: Link先を確認
Pablo Laso, Stefano Cerri, Annabel Sorby-Adams, Jennifer Guo, Farrah Mateen, Philipp Goebl, Jiaming Wu, Peirong Liu, Hongwei Li, Sean I. Young, Benjamin Billot, Oula Puonti, Gordon Sze, Sam Payabavash, Adam DeHavenon, Kevin N. Sheth, Matthew S. Rosen, John Kirsch, Nicola Strisciuglio, Jelmer M. Wolterink, Arman Eshaghi, Frederik Barkhof, W. Taylor Kimberly, Juan Eugenio Iglesias(参考訳) 脳萎縮と白質高強度(WMH)は脳血管障害と多発性硬化症における脳損傷の診断に重要な神経画像特徴である。 分割と定量化の自動化が望ましいが、既存の手法では信号-雑音比(SNR)の高い高分解能MRIを必要とする。 これは、臨床および低磁場可搬型MRI(pMRI)スキャンへの適用を妨げ、特にpMRIが大きな潜在能力を有する未保存領域において、萎縮とWMH進行の大規模追跡を妨げる。 そこで本研究では,白質の超強度と36個の脳領域を,再トレーニングを伴わない解像度とコントラスト(pMRIを含む)のスキャンから分割する手法を提案する。 8つの公開データセットと2つのハイフィールドスキャンとローフィールドスキャン(3T,64mT)を併用したプライベートデータセットで,WMH(\rho$=.85)と海馬体積(r=.89)との間に強い相関関係が認められた。 私たちのメソッドは、FreeSurferの一部として、http://surfer.nmr.mgh.harvard.edu/fswiki/WMH-SynthSegで公開されています。

Brain atrophy and white matter hyperintensity (WMH) are critical neuroimaging features for ascertaining brain injury in cerebrovascular disease and multiple sclerosis. Automated segmentation and quantification is desirable but existing methods require high-resolution MRI with good signal-to-noise ratio (SNR). This precludes application to clinical and low-field portable MRI (pMRI) scans, thus hampering large-scale tracking of atrophy and WMH progression, especially in underserved areas where pMRI has huge potential. Here we present a method that segments white matter hyperintensity and 36 brain regions from scans of any resolution and contrast (including pMRI) without retraining. We show results on eight public datasets and on a private dataset with paired high- and low-field scans (3T and 64mT), where we attain strong correlation between the WMH ($\rho$=.85) and hippocampal volumes (r=.89) estimated at both fields. Our method is publicly available as part of FreeSurfer, at: http://surfer.nmr.mgh.harvard.edu/fswiki/WMH-SynthSeg.
翻訳日:2024-02-16 23:35:57 公開日:2024-02-15
# 非可換最適化問題に対するKarush-Kuhn-Tucker条件

Karush-Kuhn-Tucker conditions for non-commutative optimization problems ( http://arxiv.org/abs/2311.18707v2 )

ライセンス: Link先を確認
Mateus Ara\'ujo, Igor Klep, Andrew J. P. Garner, Tam\'as V\'ertesi and Miguel Navascu\'es(参考訳) 我々は、非可換変数の多項式の状態平均、多くの多項式制約を満たすすべての状態と作用素、およびそのような状態と作用素が定義されるすべてのヒルベルト空間の状態平均を最適化する問題を考える。 このような非可換多項式最適化(NPO)問題は、半定値プログラミング(SDP)緩和の階層によって日常的に解決される。 一般 NPO 問題をラグランジュ形式で表現することにより、問題変数、状態および演算子最適条件の小さな変分を通じてヒューリスティックに導出し、どちらも SDP 階層に新しい正の半定値制約を加えることで強制することができる。 状態最適条件は、すべてのアルキメデス(すなわち有界)の NPO 問題によって満たされ、新しいタイプの制約、すなわち、任意の数の作用素の共通基底状態の集合に状態に対する最適化を制限することができる。 作用素最適条件 (OperatorOptimity conditions) は、カルーシュ=クーン=タッカー条件 (KKT) の非可換アナログであり、多くの古典的な最適化問題において成立することが知られている。 この点において、非可換作用素最適性の弱い形式が全てのアルキメデス NPO 問題に対して成立することを証明する。 我々は,多体スピン系の基底状態の局所的性質とベル不等式最大量子違反を計算し,新しい最適条件のパワーを検証した。

We consider the problem of optimizing the state average of a polynomial of non-commuting variables, over all states and operators satisfying a number of polynomial constraints, and over all Hilbert spaces where such states and operators are defined. Such non-commutative polynomial optimization (NPO) problems are routinely solved through hierarchies of semidefinite programming (SDP) relaxations. By phrasing the general NPO problem in Lagrangian form, we heuristically derive, via small variations on the problem variables, state and operator optimality conditions, both of which can be enforced by adding new positive semidefinite constraints to the SDP hierarchies. State optimality conditions are satisfied by all Archimedean (that is, bounded) NPO problems, and allow enforcing a new type of constraints: namely, restricting the optimization over states to the set of common ground states of an arbitrary number of operators. Operator optimality conditions are the non-commutative analogs of the Karush-Kuhn-Tucker (KKT) conditions, which are known to hold in many classical optimization problems. In this regard, we prove that a weak form of non-commutative operator optimality holds for all Archimedean NPO problems; stronger versions require the problem constraints to satisfy some qualification criterion, just like in the classical case. We test the power of the new optimality conditions by computing local properties of ground states of many-body spin systems and the maximum quantum violation of Bell inequalities.
翻訳日:2024-02-16 23:35:31 公開日:2024-02-15
# 対応問題を回避する混合モデルに基づく物体姿勢推定のための確率幾何学的枠組み

A Stochastic-Geometrical Framework for Object Pose Estimation based on Mixture Models Avoiding the Correspondence Problem ( http://arxiv.org/abs/2311.18107v2 )

ライセンス: Link先を確認
Wolfgang Hoegele(参考訳) 背景: 剛体物体の姿勢推定は、光学メロロジーとコンピュータビジョンの実践的な課題である。 本稿では,複数の特徴点の観測に基づくオブジェクトポーズ推定のための新しい確率幾何学的モデリングフレームワークを提案する。 方法:本フレームワークはオブジェクト空間の特徴点密度と実測値の解釈に混合モデルを利用する。 利点は、個々の特徴対応を解消し、マルチビューアプリケーションに正しい確率的依存関係を組み込むのを避けることである。 第1に、一般的なモデリングフレームワークを示し、第2にポーズ推定のための一般的なアルゴリズムを導出し、第3に、2つのサンプルモデル(カメラ設定とラテネーション設定)を提示する。 結果: 数値実験により, 測定解像度, 物体変形, 測定ノイズに依存する3つの観測系に対して, シミュレーションシナリオを4つ提示し, このモデリングと一般アルゴリズムの有効性を示す。 混合モデルを用いた確率的モデリングは、対応問題を避けつつ、精度とロバストなポーズ推定の可能性を示している。

Background: Pose estimation of rigid objects is a practical challenge in optical metrology and computer vision. This paper presents a novel stochastic-geometrical modeling framework for object pose estimation based on observing multiple feature points. Methods: This framework utilizes mixture models for feature point densities in object space and for interpreting real measurements. Advantages are the avoidance to resolve individual feature correspondences and to incorporate correct stochastic dependencies in multi-view applications. First, the general modeling framework is presented, second, a general algorithm for pose estimation is derived, and third, two example models (camera and lateration setup) are presented. Results: Numerical experiments show the effectiveness of this modeling and general algorithm by presenting four simulation scenarios for three observation systems, including the dependence on measurement resolution, object deformations and measurement noise. Probabilistic modeling utilizing mixture models shows the potential for accurate and robust pose estimations while avoiding the correspondence problem.
翻訳日:2024-02-16 23:35:04 公開日:2024-02-15
# 動的パーコレーション線と円上の2粒子アダマールウォーク

Two-particle Hadamard walk on dynamically percolated line and circle ( http://arxiv.org/abs/2311.15579v2 )

ライセンス: Link先を確認
M. Paryzkova, M. Stefanak, J. Novotny, B. Kollar and T. Kiss(参考訳) 動的にパーコレーションされた有限直線または円上の2つの非相互作用量子粒子のアダマールウォークの漸近ダイナミクスについて検討した。 我々は、対応するランダムユニタリダイナミクスのアトラクタ空間の基礎を構築し、解の完全性を証明する。 一粒子の場合と比較して、誘引空間の構造はより複雑であり、結果として漸近力学が引き起こされる。 一般的な結果は2つの例に示される。 第一に、4 で割り切れない長さの円の場合、境界条件は引力の数を著しく減らし、完全な解析解が得られる。 次に,2つの粒子間の相関に着目して,長さ4の線を調査し,コイン状態と位置分布の漸近サイクルを決定する。 この結果は、量子力学と古典的確率性を組み合わせたランダムなユニタリ進化が、初期の非相関粒子間の相関をもたらすことを示している。 これは、相互作用しない量子粒子の純粋に一元的進化では不可能である。 したがって、共有の動的パーコレーショングラフは相互作用の弱い形式と見なすことができる。

Asymptotic dynamics of a Hadamard walk of two non-interacting quantum particles on a dynamically percolated finite line or a circle is investigated. We construct a basis of the attractor space of the corresponding random-unitary dynamics and prove the completeness of our solution. In comparison to the one-particle case, the structure of the attractor space is much more complex, resulting in intriguing asymptotic dynamics. General results are illustrated on two examples. First, for circles of length not divisible by 4 the boundary conditions reduces the number of attractors considerably, allowing for fully analytic solution. Second, we investigate line of length 4 and determine the asymptotic cycle of reduced coin states and position distributions, focusing on the correlations between the two particles. Our results show that a random unitary evolution, which is a combination of quantum dynamics and a classical stochasticity, leads to correlations between initially uncorrelated particles. This is not possible for purely unitary evolution of non-interacting quantum particles. The shared dynamically percolated graph can thus be considered as a weak form of interaction.
翻訳日:2024-02-16 23:34:48 公開日:2024-02-15
# 放射場に対するコンパクトな3次元ガウス表現

Compact 3D Gaussian Representation for Radiance Field ( http://arxiv.org/abs/2311.13681v2 )

ライセンス: Link先を確認
Joo Chan Lee, Daniel Rho, Xiangyu Sun, Jong Hwan Ko, Eunbyung Park(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、複雑な3Dシーンを高忠実度で撮影する大きな可能性を示している。 しかし、NeRFの普及を妨げている1つの永続的課題は、ボリュームレンダリングによる計算ボトルネックである。 一方、3d gaussian splatting (3dgs)は、3d gaussisanベースの表現を利用する代替表現として最近登場し、ボリュームレンダリングではなくラスタ化パイプラインを採用し、非常に高速なレンダリング速度と有望な画像品質を実現している。 しかし、3DGSは、大量のメモリとストレージを必要とするレンダリング画像の高忠実さを維持するために、相当数の3Dガウシアンを必要とするため、大きな欠点が生じる。 この重要な問題に対処するために、我々は、性能を犠牲にすることなくガウス点数を減らし、ビュー依存色や共分散のようなガウス属性を圧縮する、2つの主要な目的に特に重点を置いている。 そこで本研究では,高い性能を維持しながらガウス数を大幅に削減する学習可能なマスク戦略を提案する。 さらに,球面高調波に頼らず,格子型ニューラルネットワークを用いて,ビュー依存色をコンパクトかつ効果的に表現することを提案する。 最後に,ベクトル量子化によりガウスの幾何学的属性をコンパクトに表現するコードブックを学習する。 量子化やエントロピー符号化などのモデル圧縮技術では,3DGSに比べてシーン表現の質を保ちながら,ストレージの削減とレンダリング速度の向上を連続的に25$\times$で示す。 我々の研究は、3Dシーン表現のための包括的なフレームワークを提供し、ハイパフォーマンス、高速トレーニング、コンパクト性、リアルタイムレンダリングを実現しています。 プロジェクトページはhttps://maincold2.github.io/c3dgs/で閲覧できます。

Neural Radiance Fields (NeRFs) have demonstrated remarkable potential in capturing complex 3D scenes with high fidelity. However, one persistent challenge that hinders the widespread adoption of NeRFs is the computational bottleneck due to the volumetric rendering. On the other hand, 3D Gaussian splatting (3DGS) has recently emerged as an alternative representation that leverages a 3D Gaussisan-based representation and adopts the rasterization pipeline to render the images rather than volumetric rendering, achieving very fast rendering speed and promising image quality. However, a significant drawback arises as 3DGS entails a substantial number of 3D Gaussians to maintain the high fidelity of the rendered images, which requires a large amount of memory and storage. To address this critical issue, we place a specific emphasis on two key objectives: reducing the number of Gaussian points without sacrificing performance and compressing the Gaussian attributes, such as view-dependent color and covariance. To this end, we propose a learnable mask strategy that significantly reduces the number of Gaussians while preserving high performance. In addition, we propose a compact but effective representation of view-dependent color by employing a grid-based neural field rather than relying on spherical harmonics. Finally, we learn codebooks to compactly represent the geometric attributes of Gaussian by vector quantization. With model compression techniques such as quantization and entropy coding, we consistently show over 25$\times$ reduced storage and enhanced rendering speed, while maintaining the quality of the scene representation, compared to 3DGS. Our work provides a comprehensive framework for 3D scene representation, achieving high performance, fast training, compactness, and real-time rendering. Our project page is available at https://maincold2.github.io/c3dgs/.
翻訳日:2024-02-16 23:34:30 公開日:2024-02-15
# ニューラルネットワークにおける超平面最適化のためのランダム線形投影損失

Random Linear Projections Loss for Hyperplane-Based Optimization in Neural Networks ( http://arxiv.org/abs/2311.12356v2 )

ライセンス: Link先を確認
Shyam Venkatasubramanian, Ahmed Aloui, Vahid Tarokh(参考訳) 損失関数の設計は、ニューラルネットワークのトレーニングとパフォーマンスを最適化するために重要である。 この研究はRandom Linear Projections (RLP)損失を導入し、これはデータ内の幾何学的関係を利用してトレーニング効率を向上させる新しいアプローチである。 ポイントワイズ誤差を最小化する従来の損失関数とは違い、RLP損失は特徴予測ペアの固定サイズのサブセットと特徴ラベルペアを接続する超平面の集合間の距離を最小化する。 ベンチマークデータセットと合成例をまたいだ実験結果から,rlp損失をトレーニングしたニューラルネットワークは,従来の損失関数をトレーニングしたニューラルネットワークよりも優れており,少ないデータサンプルで性能が向上し,付加雑音に対するロバスト性が向上することが示された。 実験結果を支持する理論的分析を行った。

Advancing loss function design is pivotal for optimizing neural network training and performance. This work introduces Random Linear Projections (RLP) loss, a novel approach that enhances training efficiency by leveraging geometric relationships within the data. Distinct from traditional loss functions that target minimizing pointwise errors, RLP loss operates by minimizing the distance between sets of hyperplanes connecting fixed-size subsets of feature-prediction pairs and feature-label pairs. Our empirical evaluations, conducted across benchmark datasets and synthetic examples, demonstrate that neural networks trained with RLP loss outperform those trained with traditional loss functions, achieving improved performance with fewer data samples, and exhibiting greater robustness to additive noise. We provide theoretical analysis supporting our empirical findings.
翻訳日:2024-02-16 23:33:58 公開日:2024-02-15
# 申し訳ないが、fair gnnのための逆行的欠落データインプテーション

Better Fair than Sorry: Adversarial Missing Data Imputation for Fair GNNs ( http://arxiv.org/abs/2311.01591v2 )

ライセンス: Link先を確認
Debolina Halder Lina and Arlei Silva(参考訳) 本稿では,グラフニューラルネットワーク(GNN)を保護属性の欠如下で学習する問題に対処する。 GNNは、決定が特定のコミュニティに不均等に影響を及ぼす可能性のある多くの関連タスクにおいて、最先端の結果を達成した。 しかし、fair gnnsに関する既存の研究は、保護された属性が完全に保存されているか、欠落したデータインプテーションが公正であると仮定している。 実際、インプテーションのバイアスはモデルの結果に伝達され、予測の公平さを過大評価することになる。 私たちは、fair gnnが使用する保護属性に対する公正なデータインプテーションモデルであるbetter fair than sorry (bfts)を提案することで、この課題に対処します。 BFtSの鍵となる設計原理は、公正さを最適化することが最も難しいとき、公正なGNNの最悪のシナリオを近似すべきであるということである。 2人の敵がfair gnnと協力する3人のプレイヤーによる敵対的スキームを用いて、このアイデアを実装した。 合成データと実データを用いた実験は、bftsが既存の代替品よりも公平性が良いことをしばしば示している。

This paper addresses the problem of learning fair Graph Neural Networks (GNNs) under missing protected attributes. GNNs have achieved state-of-the-art results in many relevant tasks where decisions might disproportionately impact specific communities. However, existing work on fair GNNs assumes that either protected attributes are fully-observed or that the missing data imputation is fair. In practice, biases in the imputation will be propagated to the model outcomes, leading them to overestimate the fairness of their predictions. We address this challenge by proposing Better Fair than Sorry (BFtS), a fair missing data imputation model for protected attributes used by fair GNNs. The key design principle behind BFtS is that imputations should approximate the worst-case scenario for the fair GNN -- i.e. when optimizing fairness is the hardest. We implement this idea using a 3-player adversarial scheme where two adversaries collaborate against the fair GNN. Experiments using synthetic and real datasets show that BFtS often achieves a better fairness $\times$ accuracy trade-off than existing alternatives.
翻訳日:2024-02-16 23:33:42 公開日:2024-02-15
# 時間反転対称性のエルミート共役による非エルミート皮膚効果と双方向皮膚効果に対する内部対称性の制約

Constraints of internal symmetry on the non-Hermitian skin effect and bidirectional skin effect under the action of the Hermitian conjugate of time-reversal symmetry ( http://arxiv.org/abs/2310.18627v2 )

ライセンス: Link先を確認
Shu-Xuan Wang(参考訳) 非エルミート皮膚効果は非エルミート系における基本的な現象であり、多くの固有状態が境界で局在できることを意味する。 本稿では,任意の次元における非エルミート皮膚効果に関するすべての内部対称性の制約を体系的に検討する。 強力なアメーバの定式化を応用し,様々な内部対称性と非エルミート皮膚効果の挙動とを総称的に対応させる。 特に、時間反転=^\dagger$対称性を持つ非エルミート系では、固有状態はアメーバの定式化を超越した反対の境界で同時に局所化することができ、現象の双方向スキン効果を導出する。 我々の研究は、内部対称性から非エルミート皮膚効果への全体的な展望を提供する。

Non-Hermitian skin effect is a basic phenomenon in non-Hermitian system, which means that an extensive number of eigenstates can be localized at the boundary. In this Letter, we systematically investigate the constraints from all internal symmetries on the non-Hermitian skin effect in arbitrary dimensions. By adopting the powerful Amoeba formulation, we build a generic correspondence between the various internal symmetries and the behavior of the non-Hermitian skin effect. Notably, we find that, for non-Hermitian systems with the time-reversal$^\dagger$ symmetry, the eigenstates can simultaneously localize at opposite boundaries, which is beyond the Amoeba formulation, and we dub the phenomenon bidirectional skin effect. Our work provides an overall perspective from the internal symmetry to the non-Hermitian skin effect.
翻訳日:2024-02-16 23:33:06 公開日:2024-02-15
# 大規模言語モデルによるリグジットモデルの実時間アニメーション生成と制御

Real-time Animation Generation and Control on Rigged Models via Large Language Models ( http://arxiv.org/abs/2310.17838v2 )

ライセンス: Link先を確認
Han Huang, Fernanda De La Torre, Cathy Mengying Fang, Andrzej Banburski-Fahey, Judith Amores, Jaron Lanier(参考訳) 本稿では,自然言語入力を用いたリップモデルを用いたリアルタイムアニメーション制御と生成手法を提案する。 まず,大規模言語モデル(LLM)をUnityに組み込んで,多種多様なリアルなアニメーションに解析可能な構造化テキストを出力する。 次に,既存のアニメーション間の柔軟な状態遷移を可能にするllmの可能性について述べる。 各種剛体モデルと運動の定性的な結果を通じて,我々のアプローチの堅牢性を示す。

We introduce a novel method for real-time animation control and generation on rigged models using natural language input. First, we embed a large language model (LLM) in Unity to output structured texts that can be parsed into diverse and realistic animations. Second, we illustrate LLM's potential to enable flexible state transition between existing animations. We showcase the robustness of our approach through qualitative results on various rigged models and motions.
翻訳日:2024-02-16 23:32:49 公開日:2024-02-15
# 非平衡エントロピー生成における真の量子効果の証拠

Evidence of genuine quantum effects in nonequilibrium entropy production ( http://arxiv.org/abs/2402.06858v2 )

ライセンス: Link先を確認
Qing-Feng Xue, Xu-Cai Zhuang, De-Yang Duan, Ying-Jie Zhang, Wei-Bin Yan, Yun-Jie Xia, Rosario Lo Franco, Zhong-Xiao Man(参考訳) エントロピー生産は熱力学の第2法則と不可逆性の尺度において重要な役割を果たす基本的な概念である。 熱力学過程において許される変換の種類に厳密な制約を課す。 ここでは, オープン量子系のエントロピー生成を, 集団関連成分とコヒーレンス関連成分に分割し, 過去の理論的予測を検証した。 コヒーレンス関連成分は、古典的でない真の量子寄与を表す。 まず, 入浴温度とシステムの初期コヒーレンスを調整することにより, 集団とコヒーレンスの両方による総エントロピー生成を導出し, システムの全コヒーレンスを除去し, 集団関連貢献のみを得る。 これら2つの結果の違いは、コヒーレンス関連項の分離を可能にする。 この分割に基づき, 量子レベルでの可逆性はエントロピー生成への2つの貢献を適切に活用することで低減できることを示した。

Entropy production is a fundamental concept that plays a crucial role in the second law of thermodynamics and the measure of irreversibility. It imposes rigorous constraints on the kinds of transformations allowed in thermodynamic processes. Using an optical setup, here we experimentally demonstrate the division of entropy production of an open quantum system into a population-related component and a coherence-related component, validating previous theoretical predictions. The coherence-related component represents a genuine quantum contribution with no classical counterpart. By adjusting bath temperatures and initial coherences of the system, we first derive the total entropy production due to both populations and coherences, then remove all the coherences of the system to solely obtain the population-related contribution. The difference between these two results permits to isolate the coherence-related term. Based on this division, our experiment ultimately proves that irreversibility at the quantum level can be reduced through properly harnessing the two contributions to entropy production.
翻訳日:2024-02-16 23:26:01 公開日:2024-02-15
# 臨床劣化予測のための変動時系列モデルにおける予測の明示的変動

Explain Variance of Prediction in Variational Time Series Models for Clinical Deterioration Prediction ( http://arxiv.org/abs/2402.06808v2 )

ライセンス: Link先を確認
Jiacheng Liu and Jaideep Srivastava(参考訳) 欠落率と測定周波数は同じ硬貨の両側である。 臨床変数の測定と検査の頻度はどれくらいか? それは患者の状態の安定性、診断過程、治療計画、測定コストなど多くの要因に依存する。 測定の有用性は疾患、患者、患者によって異なる。 本研究では, 予測モデルの観点から, 臨床変数の測定によりモデル予測の不確実性が低下する, 新たな臨床変数計測頻度の視点を提案する。 この目的を達成するために,変分時系列モデルを用いた分散シェープを提案する。shapley additive expanation(shap)アルゴリズムを用いて,認識論的予測の不確かさを同定する。 予測分散は変分モデルで条件付き隠れ空間をサンプリングすることによって推定され、デルタ法により決定的に近似することができる。 このアプローチは、変分繰り返しニューラルネットワークや変分変換器などの変分時系列モデルで動作する。 SHAP値は添加物であるため、バイナリデータ計算マスクの分散SHAPは、測定による予測分散への寄与として直接解釈することができる。 我々は,劣化予測タスクを用いた公開icuデータセットでアイデアを検証し,分散シェープと測定時間間隔の関係について検討した。

Missingness and measurement frequency are two sides of the same coin. How frequent should we measure clinical variables and conduct laboratory tests? It depends on many factors such as the stability of patient conditions, diagnostic process, treatment plan and measurement costs. The utility of measurements varies disease by disease, patient by patient. In this study we propose a novel view of clinical variable measurement frequency from a predictive modeling perspective, namely the measurements of clinical variables reduce uncertainty in model predictions. To achieve this goal, we propose variance SHAP with variational time series models, an application of Shapley Additive Expanation(SHAP) algorithm to attribute epistemic prediction uncertainty. The prediction variance is estimated by sampling the conditional hidden space in variational models and can be approximated deterministically by delta's method. This approach works with variational time series models such as variational recurrent neural networks and variational transformers. Since SHAP values are additive, the variance SHAP of binary data imputation masks can be directly interpreted as the contribution to prediction variance by measurements. We tested our ideas on a public ICU dataset with deterioration prediction task and study the relation between variance SHAP and measurement time intervals.
翻訳日:2024-02-16 23:25:42 公開日:2024-02-15
# LLMエージェントはウェブサイトを自動ハックできる

LLM Agents can Autonomously Hack Websites ( http://arxiv.org/abs/2402.06664v2 )

ライセンス: Link先を確認
Richard Fang, Rohan Bindu, Akul Gupta, Qiusi Zhan, Daniel Kang(参考訳) 近年、大きな言語モデル(LLM)はますます能力を高め、ツール(例えば関数を呼び出す)と対話し、文書を読み、再帰的に自身を呼び出すことができるようになった。 結果として、これらのLSMはエージェントとして自律的に機能する。 これらのエージェントの能力の増大に伴い、最近の研究はLLMエージェントがサイバーセキュリティにどのように影響するかを推測している。 しかし、LSM剤の攻撃能力についてはあまり知られていない。 本研究では, LLMエージェントがWebサイトを自律的にハックし, 視覚的データベーススキーマ抽出やSQLインジェクションのように複雑なタスクを人間のフィードバックなしに実行できることを示す。 重要なのは、エージェントが事前に脆弱性を知る必要がないことだ。 この機能は、ツールの使用と拡張コンテキストの活用を高度に有能なフロンティアモデルによって独特に実現されている。 すなわち、GPT-4はそのようなハックが可能であるが、既存のオープンソースモデルはそうではない。 最後に、gpt-4は野生のウェブサイトの脆弱性を自律的に発見できることを示した。 本研究は, LLMの広範な展開について疑問を投げかけるものである。

In recent years, large language models (LLMs) have become increasingly capable and can now interact with tools (i.e., call functions), read documents, and recursively call themselves. As a result, these LLMs can now function autonomously as agents. With the rise in capabilities of these agents, recent work has speculated on how LLM agents would affect cybersecurity. However, not much is known about the offensive capabilities of LLM agents. In this work, we show that LLM agents can autonomously hack websites, performing tasks as complex as blind database schema extraction and SQL injections without human feedback. Importantly, the agent does not need to know the vulnerability beforehand. This capability is uniquely enabled by frontier models that are highly capable of tool use and leveraging extended context. Namely, we show that GPT-4 is capable of such hacks, but existing open-source models are not. Finally, we show that GPT-4 is capable of autonomously finding vulnerabilities in websites in the wild. Our findings raise questions about the widespread deployment of LLMs.
翻訳日:2024-02-16 23:25:24 公開日:2024-02-15
# 物理インフォームドニューラルネットワークを用いたマルチスケールモデリング:大規模ダイナミクスから複雑系の小規模予測へ

Multiscale Modelling with Physics-informed Neural Network: from Large-scale Dynamics to Small-scale Predictions in Complex Systems ( http://arxiv.org/abs/2402.05067v3 )

ライセンス: Link先を確認
Jing Wang and Zheng Li and Pengyu Lai and Rui Wang and Di Yang and Dewu Yang and Hui Xu(参考訳) 多スケール現象は様々な科学領域にまたがって現れ、複雑系における多スケールダイナミクスを正確にかつ効果的に予測するためのユビキタスな課題を提示する。 本稿では,大規模ダイナミクスを独立にモデル化し,小規模ダイナミクスをスレーブシステムとして扱うことにより,新しいデカップリング解法を提案する。 小型システムを効率的かつ高精度に特徴付けるために,スペクトル物理インフォームドニューラルネットワーク(pinn)を開発した。 この手法の有効性は, 1次元のクラモット・シヴァシンスキー方程式, 2次元と3次元のナビエ・ストークス方程式など, 流体力学の問題に対する汎用性を示す広範な数値実験によって実証された。 さらに,非一様メッシュ,複雑なジオメトリ,ノイズを伴う大規模データ,高次元の小型ダイナミックスなど,より複雑な問題への提案手法の適用についても検討する。 これらのシナリオに関する議論は、メソッドの能力と制限の包括的理解に寄与する。 本稿では,大規模データを最小限の計算要求で取得し,続いてSpectral PINNによって効率と精度を向上した小型ダイナミックスを捕捉する,マルチスケール時空間システムの計算シミュレーションを強化する,価値があり有望なアプローチを提案する。

Multiscale phenomena manifest across various scientific domains, presenting a ubiquitous challenge in accurately and effectively predicting multiscale dynamics in complex systems. In this paper, a novel decoupling solving mode is proposed through modelling large-scale dynamics independently and treating small-scale dynamics as a slaved system. A Spectral Physics-informed Neural Network (PINN) is developed to characterize the small-scale system in an efficient and accurate way. The effectiveness of the method is demonstrated through extensive numerical experiments, including one-dimensional Kuramot-Sivashinsky equation, two- and three-dimensional Navier-Stokes equations, showcasing its versatility in addressing problems of fluid dynamics. Furthermore, we also delve into the application of the proposed approach to more complex problems, including non-uniform meshes, complex geometries, large-scale data with noise, and high-dimensional small-scale dynamics. The discussions about these scenarios contribute to a comprehensive understanding of the method's capabilities and limitations. This paper presents a valuable and promising approach to enhance the computational simulations of multiscale spatiotemporal systems, which enables the acquisition of large-scale data with minimal computational demands, followed by Spectral PINN to capture small-scale dynamics with improved efficiency and accuracy.
翻訳日:2024-02-16 23:25:06 公開日:2024-02-15
# 視覚言語モデルに対する開語彙校正

Open-Vocabulary Calibration for Vision-Language Models ( http://arxiv.org/abs/2402.04655v2 )

ライセンス: Link先を確認
Shuoyuan Wang, Jindong Wang, Guoqing Wang, Bob Zhang, Kaiyang Zhou, Hongxin Wei(参考訳) 視覚言語モデル(VLM)は、画像認識、テキスト駆動型ビジュアルコンテンツ生成、ビジュアルチャットボットなどにおける様々なオープン語彙タスクを扱う強力な能力を示している。 近年、VLMの下流性能を改善するための適応法、特に素早い学習のようなパラメータ効率の高い微調整法に多大な努力とリソースが注がれている。 しかし、主に見過ごされてきた重要な側面は、細調整されたVLMにおける信頼性校正の問題であり、そのようなモデルを現実世界に展開する際の信頼性を大幅に低下させる可能性がある。 本稿では,即興学習の文脈における信頼度校正問題を体系的に検討し,既存の校正手法ではこの問題,特にオープンボキャブラリー設定では解決が不十分であることを明らかにした。 そこで本研究では,予測テキストラベルとベースクラス間の距離を誘導する手法として,温度のスケーリングに基づくDAC(Distance-Aware Calibration)を提案する。 11のダウンストリームデータセットに適用した7つの異なるプロンプトラーニング手法を用いた実験は、推論速度を犠牲にすることなく高い有効性を達成するdacの有効性を示す。

Vision-language models (VLMs) have emerged as formidable tools, showing their strong capability in handling various open-vocabulary tasks in image recognition, text-driven visual content generation, and visual chatbots, to name a few. In recent years, considerable efforts and resources have been devoted to adaptation methods for improving downstream performance of VLMs, particularly on parameter-efficient fine-tuning methods like prompt learning. However, a crucial aspect that has been largely overlooked is the confidence calibration problem in fine-tuned VLMs, which could greatly reduce reliability when deploying such models in the real world. This paper bridges the gap by systematically investigating the confidence calibration problem in the context of prompt learning and reveals that existing calibration methods are insufficient to address the problem, especially in the open-vocabulary setting. To solve the problem, we present a simple and effective approach called Distance-Aware Calibration (DAC), which is based on scaling the temperature using as guidance the distance between predicted text labels and base classes. The experiments with 7 distinct prompt learning methods applied across 11 diverse downstream datasets demonstrate the effectiveness of DAC, which achieves high efficacy without sacrificing the inference speed.
翻訳日:2024-02-16 23:24:40 公開日:2024-02-15
# 分子ハミルトニアンの変分量子固有解法の切断法

Truncation technique for variational quantum eigensolver for Molecular Hamiltonians ( http://arxiv.org/abs/2402.01630v2 )

ライセンス: Link先を確認
Qidong Xu, Kanav Setia(参考訳) 変分量子固有解法(VQE)は、近時雑音型中間規模量子(NISQ)デバイスにおいて最も有望な量子アルゴリズムの1つである。 VQEは通常、パラメタライズド量子アンサッツの古典的な最適化を通じて量子ハミルトンの最小エネルギーを見つける。 VQEのボトルネックの1つは、測定される量子回路の数である。 そこで本研究では, 切断されたハミルトニアンを用いて最適化手順を開始し, 作用素分類法によって元のハミルトニアンの最適化に徐々に移行する, 物理的に直感的な切断手法を提案する。 この戦略により、量子コンピュータ上でのハミルトニアンの期待値に対する必要な評価回数を減らすことができる。 我々の戦略に必要な量子リソースの削減は相当であり、おそらくシステムのサイズとともにスケールする。 数値シミュレーションにより, 種々の分子系に対する手法を実証する。

The variational quantum eigensolver (VQE) is one of the most promising quantum algorithms for the near-term noisy intermediate-scale quantum (NISQ) devices. The VQE typically involves finding the minimum energy of a quantum Hamiltonian through classical optimization of a parametrized quantum ansatz. One of the bottlenecks in VQEs is the number of quantum circuits to be measured. In this work, we propose a physically intuitive truncation technique that starts the optimization procedure with a truncated Hamiltonian and then gradually transitions to the optimization for the original Hamiltonian via an operator classification method. This strategy allows us to reduce the required number of evaluations for the expectation value of Hamiltonian on a quantum computer. The reduction in required quantum resources for our strategy is substantial and likely scales with the system size. With numerical simulations, we demonstrate our method for various molecular systems.
翻訳日:2024-02-16 23:23:29 公開日:2024-02-15
# HawkEye: バウンド、スムーズ、インセンティブロス機能によるロバスト回帰の改善

HawkEye: Advancing Robust Regression with Bounded, Smooth, and Insensitive Loss Function ( http://arxiv.org/abs/2401.16785v2 )

ライセンス: Link先を確認
Mushir Akhtar, M. Tanveer, and Mohd. Arshad(参考訳) サポートベクター回帰(SVR)は、様々な分野にまたがる幅広い応用のために、過去20年間で大きな人気を集めてきた。 その汎用性にもかかわらず、SVRは、主に$\varepsilon$-insensitive loss関数を使用するために、外れ値とノイズに直面した時に課題に直面する。 この制限に対処するために、有界損失関数を持つsvrが魅力的な代替として登場し、一般化性能と堅牢性が向上した。 特に近年の進歩は、スムーズな特性を持つ有界損失関数の設計に焦点が当てられ、勾配に基づく最適化アルゴリズムが採用されている。 しかし、これらの有界かつ滑らかな損失関数は無感ゾーンを持たないことを強調することが重要である。 本稿では,HawkeEye損失関数という新しい対称損失関数を導入することで,上記の制約に対処する。 なお、HawkeEye損失関数は、SVR文学における最初の損失関数として有界かつ滑らかで同時に非感性ゾーンを持つものとして注目に値する。 このブレークスルーを活用して、HawkEye損失関数をSVRの最小2乗フレームワークに統合し、HE-LSSVRと呼ばれる新しい高速で堅牢なモデルを得る。 HE-LSSVRに固有の最適化問題は、適応的学習率と大規模問題処理の有効性で知られている適応的モーメント推定(Adam)アルゴリズムを活用することで解決される。 私たちの知る限り、Adam氏がSVR問題を解決するために雇われたのはこれが初めてです。 提案したHE-LSSVRモデルを実験的に評価するために,UCI,合成,時系列データセットを用いて評価を行った。 実験結果から, HE-LSSVRモデルの卓越した一般化性能と学習時間における効率性の両方が明らかとなった。

Support vector regression (SVR) has garnered significant popularity over the past two decades owing to its wide range of applications across various fields. Despite its versatility, SVR encounters challenges when confronted with outliers and noise, primarily due to the use of the $\varepsilon$-insensitive loss function. To address this limitation, SVR with bounded loss functions has emerged as an appealing alternative, offering enhanced generalization performance and robustness. Notably, recent developments focus on designing bounded loss functions with smooth characteristics, facilitating the adoption of gradient-based optimization algorithms. However, it's crucial to highlight that these bounded and smooth loss functions do not possess an insensitive zone. In this paper, we address the aforementioned constraints by introducing a novel symmetric loss function named the HawkEye loss function. It is worth noting that the HawkEye loss function stands out as the first loss function in SVR literature to be bounded, smooth, and simultaneously possess an insensitive zone. Leveraging this breakthrough, we integrate the HawkEye loss function into the least squares framework of SVR and yield a new fast and robust model termed HE-LSSVR. The optimization problem inherent to HE-LSSVR is addressed by harnessing the adaptive moment estimation (Adam) algorithm, known for its adaptive learning rate and efficacy in handling large-scale problems. To our knowledge, this is the first time Adam has been employed to solve an SVR problem. To empirically validate the proposed HE-LSSVR model, we evaluate it on UCI, synthetic, and time series datasets. The experimental outcomes unequivocally reveal the superiority of the HE-LSSVR model both in terms of its remarkable generalization performance and its efficiency in training time.
翻訳日:2024-02-16 23:23:11 公開日:2024-02-15
# OntoMedRec: 医療勧告のためのモデル非依存型オントロジーエンコーダ

OntoMedRec: Logically-Pretrained Model-Agnostic Ontology Encoders for Medication Recommendation ( http://arxiv.org/abs/2401.15814v2 )

ライセンス: Link先を確認
Weicong Tan, Weiqing Wang, Xin Zhou, Wray Buntine, Gordon Bingham, Hongzhi Yin(参考訳) 既存の医薬品推奨モデルは、電子健康記録(ehrs)に基づいて医療概念の表現を学習し、学習表現を用いて推奨を行う。 しかし、ほとんどの薬は限られた時間だけデータセットに現れるため、表現の学習は不十分である。 医学オントロジー(medical ontologies)は、医学用語の階層分類システムであり、同じ用語が一定のレベルで同じクラスに属する。 本稿では,医療オントロジーとデータ空間の問題に対処する,論理的に事前訓練された,モデルに依存しない医療オントロジーエンコーダであるOntoMedRecを提案する。 OntoMedRecの有効性を評価するためにベンチマークデータセットの総合的な実験を行い、その結果、OntoMedRecの統合により、EHRデータセット全体と数発の薬剤による入院の両方において、様々なモデルの性能が改善されることを示した。 ソースコードのgithubリポジトリはhttps://anonymous.4open.science/r/ontomedrec-d123にある。

Most existing medication recommendation models learn representations for medical concepts based on electronic health records (EHRs) and make recommendations with learnt representations. However, most medications appear in the dataset for limited times, resulting in insufficient learning of their representations. Medical ontologies are the hierarchical classification systems for medical terms where similar terms are in the same class on a certain level. In this paper, we propose OntoMedRec, the logically-pretrained and model-agnostic medical Ontology Encoders for Medication Recommendation that addresses data sparsity problem with medical ontologies. We conduct comprehensive experiments on benchmark datasets to evaluate the effectiveness of OntoMedRec, and the result shows the integration of OntoMedRec improves the performance of various models in both the entire EHR datasets and the admissions with few-shot medications. We provide the GitHub repository for the source code on https://anonymous.4open.science/r/OntoMedRec-D123
翻訳日:2024-02-16 23:22:39 公開日:2024-02-15
# 人間の意思決定を評価する実験のための決定論的基礎

Decision Theoretic Foundations for Experiments Evaluating Human Decisions ( http://arxiv.org/abs/2401.15106v2 )

ライセンス: Link先を確認
Jessica Hullman, Alex Kale, Jason Hartline(参考訳) 情報ディスプレイによる意思決定は、説明可能なAI、人間とAIのコラボレーション、データ視覚化といった分野における研究の重要な焦点である。 しかし、決定問題を構成するものや、人間の決定に何らかの欠陥があることを結論付ける実験に何が必要かは、憶測の余地がある。 本稿では,統計決定理論と情報経済学から合成された決定問題の広く適用可能な定義を提案する。 我々は、人間のパフォーマンスの損失をバイアスの形で評価するためには、合理的なエージェントが規範的決定を識別する必要があるという情報を参加者に提供する必要があると論じる。 本稿では,ai支援意思決定に関する文献から,近年の意思決定評価の程度を評価する。 偏見のある行動の特定を主張する39の研究のうち10(26\%)は、その行動が少なくとも1つの治療条件において良い意思決定から逸脱していると特徴付けるのに十分な情報を持っている。 我々は、よく定義された意思決定問題を研究することの価値を、彼らが認識できるパフォーマンス損失の特徴を説明することによって動機づける。 対照的に、疎結合な決定問題の曖昧さは規範的な解釈を妨げる。 私たちは練習の推奨で締めくくる。

Decision-making with information displays is a key focus of research in areas like explainable AI, human-AI teaming, and data visualization. However, what constitutes a decision problem, and what is required for an experiment to be capable of concluding that human decisions are flawed in some way, remain open to speculation. We present a widely applicable definition of a decision problem synthesized from statistical decision theory and information economics. We argue that to attribute loss in human performance to forms of bias, an experiment must provide participants with the information that a rational agent would need to identify the normative decision. We evaluate the extent to which recent evaluations of decision-making from the literature on AI-assisted decisions achieve this criteria. We find that only 10 (26\%) of 39 studies that claim to identify biased behavior present participants with sufficient information to characterize their behavior as deviating from good decision-making in at least one treatment condition. We motivate the value of studying well-defined decision problems by describing a characterization of performance losses they allow us to conceive. In contrast, the ambiguities of a poorly communicated decision problem preclude normative interpretation. We conclude with recommendations for practice.
翻訳日:2024-02-16 23:22:19 公開日:2024-02-15
# 強磁性ジョセフソンπ接合を零磁場で動作させる超伝導束量子ビット

Superconducting flux qubit with ferromagnetic Josephson pi junction operating at zero magnetic field ( http://arxiv.org/abs/2401.14597v2 )

ライセンス: Link先を確認
Sunmi Kim, Leonid V. Abdurakhimov, Duong Pham, Wei Qiu, Hirotaka Terai, Sahel Ashhab, Shiro Saito, Taro Yamashita, and Kouichi Semba(参考訳) 従来の超伝導束量子ビットの演算は、量子ビットループを通したフラックス量子の半分の演算点を設定するために、正確に調整された磁場を適用する必要があるため、この種の量子ビットに基づく量子回路のスケーリングは困難である。 精密に制御されたナノスケール・タイクネス超伝導体/フェロマグネット/スーパーコンダクタジョセフソン接合を用いて超伝導次数パラメータのpi位相シフトを誘導することにより、ゼロ磁束で動作する磁束量子ビットを実現できることが提案されている。 3つのNbN/AlN/NbNジョセフソン接合とNbN/PdNi/NbN強磁性π接合に基づくゼロフラックスバイアス束量子ビットの実現を報告した。 量子ビット寿命はマイクロ秒の範囲にあり、これは金属強磁性体の準粒子励起によって制限される。 強磁性接合の材料をさらに改良することにより、ゼロフラックスバイアスのフラックス量子ビットは量子コンピューティングにとって有望なプラットフォームとなる。

The operation of a conventional superconducting flux qubit requires the application of a precisely tuned magnetic field to set the operation point at half a flux quantum through the qubit loop, which makes the scaling of quantum circuits based on this type of qubits difficult. It has been proposed that, by inducing a pi phase shift in the superconducting order parameter using a precisely controlled nanoscale-thickness superconductor/ferromagnet/superconductor Josephson junction, commonly referred to as pi-junction, it is possible to realize a flux qubit operating at zero magnetic flux. We report the realization of a zero-flux-biased flux qubit based on three NbN/AlN/NbN Josephson junctions and a NbN/PdNi/NbN ferromagnetic pi-junction. The qubit lifetime is in the microsecond range, which we argue is limited by quasiparticle excitations in the metallic ferromagnet layer. With further improvements in the materials of the ferromagnetic junction, the zero-flux-biased flux qubits can become a promising platform for quantum computing.
翻訳日:2024-02-16 23:21:59 公開日:2024-02-15
# 量子スーパーマップ変換を用いた等尺演算の普遍的随伴

Universal adjointation of isometry operations using transformation of quantum supermaps ( http://arxiv.org/abs/2401.10137v2 )

ライセンス: Link先を確認
Satoshi Yoshida, Akihito Soeda, Mio Murao(参考訳) 量子状態や量子演算を含む量子オブジェクトの可能な変換の同定は、量子アルゴリズムの開発には不可欠である。 入力独立変換として定義される普遍変換は、様々な量子応用に現れる。 これはユニタリ作用素の普遍変換の場合である。 しかし、これらの変換を非単体演算に拡張することは自明であり、ほとんど未解決である。 そこで本研究では,入力イソメトリ演算を,ユニタリ演算と量子状態変換の両方を含むアジョイント演算に変換するアイソメトリアジョイントプロトコルを提案する。 量子コムを用いたユニタリ反転プロトコルから導かれる並列およびシーケンシャルなアイソメトリ共役プロトコルの構築と最適近似誤差の達成について述べる。 この誤差はアイソメトリー演算の出力次元とは独立であることが示されている。 特に、近似誤差 $\epsilon = \theta(d^2/n)$ を達成する漸近的最適並列プロトコルを明示的に求め、ここで $d$ は等長演算の入力次元、$n$ は等長演算の呼び出し数である。 この研究は、イソメトリインバージョンとユニバーサルエラー検出にも拡張され、最適な性能を評価するために半定値プログラミングを採用している。 その結果,等尺的共役および普遍的誤り検出における一般プロトコルの最適性能は,出力次元に依存しず,不定因数順序プロトコルは等尺的逆転および普遍的誤り検出において逐次的プロトコルよりも有利であることがわかった。

Identification of possible transformations of quantum objects including quantum states and quantum operations is indispensable in developing quantum algorithms. Universal transformations, defined as input-independent transformations, appear in various quantum applications. Such is the case for universal transformations of unitary operations. However, extending these transformations to non-unitary operations is nontrivial and largely unresolved. Addressing this, we introduce isometry adjointation protocols that convert an input isometry operation into its adjoint operation, which include both unitary operation and quantum state transformations. The paper details the construction of parallel and sequential isometry adjointation protocols, derived from unitary inversion protocols using quantum combs, and achieving optimal approximation error. This error is shown to be independent of the output dimension of the isometry operation. In particular, we explicitly obtain an asymptotically optimal parallel protocol achieving an approximation error $\epsilon = \Theta(d^2/n)$, where $d$ is the input dimension of the isometry operation and $n$ is the number of calls of the isometry operation. The research also extends to isometry inversion and universal error detection, employing semidefinite programming to assess optimal performances. The findings suggest that the optimal performance of general protocols in isometry adjointation and universal error detection is not dependent on the output dimension, and that indefinite causal order protocols offer advantages over sequential ones in isometry inversion and universal error detection.
翻訳日:2024-02-16 23:21:39 公開日:2024-02-15
# Rb-Cs Rydberg $d$-states の種間F\"オースター共鳴による多ビットゲートの強化

Interspecies F\"orster resonances of Rb-Cs Rydberg $d$-states for enhanced multi-qubit gate fidelities ( http://arxiv.org/abs/2401.02308v2 )

ライセンス: Link先を確認
Paul M. Ireland, D. M. Walker and J. D. Pritchard(参考訳) 我々は,ルビジウムとセシウムのrydberg $d$-states間の種間相互作用の解析を行った。 高忠実度2ビットおよび多ビットの$C_kZ$ゲートを最大$k=4$まで実行し、対ポテンシャルの数値対角化によって評価されたブロックエラーを考慮に入れた上で、最強の種間結合を提供するF\"オースター共鳴チャネルを同定する。 その結果、d$-state軌道は、s$-stateよりも種内結合の抑制を強化し、大規模な中性原子量子プロセッサでの使用に適していることがわかった。

We present an analysis of interspecies interactions between Rydberg $d$-states of rubidium and cesium. We identify the F\"orster resonance channels offering the strongest interspecies couplings, demonstrating the viability for performing high-fidelity two- and multi-qubit $C_kZ$ gates up to $k=4$, including accounting for blockade errors evaluated via numerical diagonalization of the pair-potentials. Our results show $d$-state orbitals offer enhanced suppression of intraspecies couplings compared to $s$-states, making them well suited for use in large-scale neutral atom quantum processors.
翻訳日:2024-02-16 23:20:57 公開日:2024-02-15
# ソートに基づく高速かつ説明可能なクラスタリング

Fast and explainable clustering based on sorting ( http://arxiv.org/abs/2202.01456v2 )

ライセンス: Link先を確認
Xinye Chen, Stefan G\"uttel(参考訳) 我々はCLASSIXと呼ばれる高速で説明可能なクラスタリング手法を提案する。 これは2つのフェーズで構成されており、すなわち、ソートされたデータのグリーディーアグリゲーションフェーズを近くのデータポイントのグループに分割し、続いてグループをクラスタにマージする。 このアルゴリズムは2つのスカラーパラメータ、すなわちアグリゲーションのための距離パラメータと、最小クラスタサイズを制御する別のパラメータによって制御される。 各種クラスタ形状と低-高特徴次元を有する合成および実世界のデータセット上でのクラスタリング性能の包括的評価を行うために,大規模な実験を行った。 CLASSIXは最先端のクラスタリングアルゴリズムと競合することを示す。 このアルゴリズムは線形空間複雑性を持ち、幅広い問題に対してほぼ線形時間複雑性を実現する。 その固有の単純さは、計算されたクラスタの直感的な説明を生成することを可能にする。

We introduce a fast and explainable clustering method called CLASSIX. It consists of two phases, namely a greedy aggregation phase of the sorted data into groups of nearby data points, followed by the merging of groups into clusters. The algorithm is controlled by two scalar parameters, namely a distance parameter for the aggregation and another parameter controlling the minimal cluster size. Extensive experiments are conducted to give a comprehensive evaluation of the clustering performance on synthetic and real-world datasets, with various cluster shapes and low to high feature dimensionality. Our experiments demonstrate that CLASSIX competes with state-of-the-art clustering algorithms. The algorithm has linear space complexity and achieves near linear time complexity on a wide range of problems. Its inherent simplicity allows for the generation of intuitive explanations of the computed clusters.
翻訳日:2024-02-16 21:33:52 公開日:2024-02-15
# DIVA-DAF: 歴史的文書画像解析のためのディープラーニングフレームワーク

DIVA-DAF: A Deep Learning Framework for Historical Document Image Analysis ( http://arxiv.org/abs/2201.08295v3 )

ライセンス: Link先を確認
Lars V\"ogtlin, Anna Scius-Bertrand, Paul Maergner, Andreas Fischer, Rolf Ingold(参考訳) 深層学習法は, 歴史的文書画像解析における課題解決において, 高い性能を示した。 しかし、現在のライブラリやフレームワークにもかかわらず、実験や一連の実験をプログラミングし、それらを実行するのに時間がかかる。 そこで我々は、PyTorch LightningをベースにしたオープンソースのディープラーニングフレームワークであるDIVA-DAFを提案する。 セグメンテーションや分類といった事前実装されたタスクは簡単に使用またはカスタマイズできる。 また、データを読み込むための強力なモジュール、大きなデータセット、そして異なる形式の根拠の真理によって、自分自身のタスクを作成するのも簡単です。 実行されたアプリケーションは、ドキュメント分析タスクのプログラミングや、アーキテクチャの事前トレーニングや変更といったさまざまなシナリオの時間節約を実証している。 データモジュールのおかげで、このフレームワークはモデルのトレーニング時間を大幅に削減できる。

Deep learning methods have shown strong performance in solving tasks for historical document image analysis. However, despite current libraries and frameworks, programming an experiment or a set of experiments and executing them can be time-consuming. This is why we propose an open-source deep learning framework, DIVA-DAF, which is based on PyTorch Lightning and specifically designed for historical document analysis. Pre-implemented tasks such as segmentation and classification can be easily used or customized. It is also easy to create one's own tasks with the benefit of powerful modules for loading data, even large data sets, and different forms of ground truth. The applications conducted have demonstrated time savings for the programming of a document analysis task, as well as for different scenarios such as pre-training or changing the architecture. Thanks to its data module, the framework also allows to reduce the time of model training significantly.
翻訳日:2024-02-16 21:33:39 公開日:2024-02-15
# ED2: 連続制御のための環境ダイナミクス分解世界モデル

ED2: Environment Dynamics Decomposition World Models for Continuous Control ( http://arxiv.org/abs/2112.02817v2 )

ライセンス: Link先を確認
Jianye Hao, Yifu Yuan, Cong Wang, Zhen Wang(参考訳) モデルベース強化学習(MBRL)は、モデルフリーのRLと比較して、実際にかなりのサンプル効率を達成するが、その性能はモデル予測誤差の存在によって制限されることが多い。 モデルエラーを減らすために、標準的なmbrlアプローチは、環境のダイナミクス全体に適合するように設計された単一のネットワークを訓練するが、これは個別にモデル化できる複数のサブダイナミクスに関する豊富な情報を浪費し、世界モデルをより正確に構築できる。 本稿では,環境を分解的にモデル化する新しい世界モデル構築フレームワークであるEnvironmental Dynamics Decomposition (ED2)を提案する。 ED2には、サブダイナミックス発見(SD2)と動的分解予測(D2P)の2つの重要なコンポーネントが含まれている。 SD2は環境のサブダイナミックスを自動的に発見し、D2Pはサブダイナミックスに従って分解された世界モデルを構築する。 ED2は既存のMBRLアルゴリズムと簡単に組み合わせることができ、実験結果から、ED2はモデル誤差を著しく低減し、サンプル効率を向上し、様々な連続制御タスクにおける最先端のMBRLアルゴリズムと組み合わせることで、より漸近的な性能を達成することが示された。 私たちのコードはオープンソースで、https://github.com/ED2-source-code/ED2で利用可能です。

Model-based reinforcement learning (MBRL) achieves significant sample efficiency in practice in comparison to model-free RL, but its performance is often limited by the existence of model prediction error. To reduce the model error, standard MBRL approaches train a single well-designed network to fit the entire environment dynamics, but this wastes rich information on multiple sub-dynamics which can be modeled separately, allowing us to construct the world model more accurately. In this paper, we propose the Environment Dynamics Decomposition (ED2), a novel world model construction framework that models the environment in a decomposing manner. ED2 contains two key components: sub-dynamics discovery (SD2) and dynamics decomposition prediction (D2P). SD2 discovers the sub-dynamics in an environment automatically and then D2P constructs the decomposed world model following the sub-dynamics. ED2 can be easily combined with existing MBRL algorithms and empirical results show that ED2 significantly reduces the model error, increases the sample efficiency, and achieves higher asymptotic performance when combined with the state-of-the-art MBRL algorithms on various continuous control tasks. Our code is open source and available at https://github.com/ED2-source-code/ED2.
翻訳日:2024-02-16 21:33:25 公開日:2024-02-15
# クロスモーダルアダプタを用いた事前学習型言語モデルへの汎用性と効率的な視覚知識統合に向けて

Towards Versatile and Efficient Visual Knowledge Integration into Pre-trained Language Models with Cross-Modal Adapters ( http://arxiv.org/abs/2305.07358v3 )

ライセンス: Link先を確認
Xinyun Zhang, Haochen Tan, Han Wu, Mingjie Zhan, Ding Liang, Bei Yu(参考訳) 人間はマルチモーダル知識を通じて言語を学ぶ。 しかし、テキストのみの事前学習方式のため、既存の事前学習言語モデル(PLM)のほとんどはマルチモーダル情報から妨げられている。 PLMに視覚的知識を注入するために、既存の手法では、視覚言語モデル(VLM)のテキストまたはイメージエンコーダを組み込んで視覚情報を符号化し、知識融合のためにPLMのオリジナルのパラメータをすべて更新する。 本稿では,事前学習したvlmで学習した視覚とテキストの知識を柔軟に活用し,plmに効率的に注入する新しいプラグアンドプレイモジュールであるx-adapterを提案する。 具体的には、PLMにX適応器を挿入し、追加パラメータのみを適応中に更新する。 VLMのポテンシャルをフル活用するために、X-アダプタはV-expertとT-expertの2つのサブモジュールから構成され、それぞれVLMの画像とテキスト表現を融合する。 下流のタスクによって異なるサブモジュールを活性化することも可能です。 実験の結果,plmベースラインと比較して,オブジェクトカラー推論と自然言語理解(nlu)タスクの性能が有意に向上することがわかった。

Humans learn language via multi-modal knowledge. However, due to the text-only pre-training scheme, most existing pre-trained language models (PLMs) are hindered from the multi-modal information. To inject visual knowledge into PLMs, existing methods incorporate either the text or image encoder of vision-language models (VLMs) to encode the visual information and update all the original parameters of PLMs for knowledge fusion. In this paper, we propose a new plug-and-play module, X-adapter, to flexibly leverage the aligned visual and textual knowledge learned in pre-trained VLMs and efficiently inject them into PLMs. Specifically, we insert X-adapters into PLMs, and only the added parameters are updated during adaptation. To fully exploit the potential in VLMs, X-adapters consist of two sub-modules, V-expert and T-expert, to fuse VLMs' image and text representations, respectively. We can opt for activating different sub-modules depending on the downstream tasks. Experimental results show that our method can significantly improve the performance on object-color reasoning and natural language understanding (NLU) tasks compared with PLM baselines.
翻訳日:2024-02-16 21:30:06 公開日:2024-02-15
# 自己制御型メモリフレームワークによる大規模言語モデルの強化

Enhancing Large Language Model with Self-Controlled Memory Framework ( http://arxiv.org/abs/2304.13343v2 )

ライセンス: Link先を確認
Bing Wang, Xinnian Liang, Jian Yang, Hui Huang, Shuangzhi Wu, Peihao Wu, Lu Lu, Zejun Ma, Zhoujun Li(参考訳) 大規模言語モデル(llm)は長い入力を処理することができないため、重要な歴史的情報を失うことになる。 本稿では,LLMが長期記憶を維持し,関連情報をリコールする能力を高めるための自己制御メモリ(SCM)フレームワークを提案する。 我々のSCMフレームワークは,フレームワークのバックボーンとして機能するLCMベースのエージェントと,メモリを更新し,メモリストリームからメモリをいつ,どのように利用するかを決定するメモリコントローラの3つのキーコンポーネントから構成される。 さらに、提案したSCMは、修正や微調整なしに超長文を処理でき、プラグイン・アンド・プレイのパラダイムでLLMに従う命令と統合できる。 さらに,長い入力を処理するためのscmの有効性を評価するためにデータセットをアノテートする。 注釈付きデータセットは、長期対話、書籍要約、ミーティング要約の3つのタスクをカバーする。 実験結果から, 長期対話における競合ベースラインと比較して, 検索精度が向上し, より情報的な応答が得られた。 (https://github.com/wbbeyourself/SCM4LLMs)

Large Language Models (LLMs) are constrained by their inability to process lengthy inputs, resulting in the loss of critical historical information. To address this limitation, in this paper, we propose the Self-Controlled Memory (SCM) framework to enhance the ability of LLMs to maintain long-term memory and recall relevant information. Our SCM framework comprises three key components: an LLM-based agent serving as the backbone of the framework, a memory stream storing agent memories, and a memory controller updating memories and determining when and how to utilize memories from memory stream. Additionally, the proposed SCM is able to process ultra-long texts without any modification or fine-tuning, which can integrate with any instruction following LLMs in a plug-and-play paradigm. Furthermore, we annotate a dataset to evaluate the effectiveness of SCM for handling lengthy inputs. The annotated dataset covers three tasks: long-term dialogues, book summarization, and meeting summarization. Experimental results demonstrate that our method achieves better retrieval recall and generates more informative responses compared to competitive baselines in long-term dialogues. (https://github.com/wbbeyourself/SCM4LLMs)
翻訳日:2024-02-16 21:29:42 公開日:2024-02-15
# ヒトおよびmlモデルのトークン化選好:注釈研究

Tokenization Preference for Human and ML Model: An Annotation Study ( http://arxiv.org/abs/2304.10813v2 )

ライセンス: Link先を確認
Tatsuya Hiraoka, Tomoya Iwakura(参考訳) 機械学習(ML)モデルにも、人間のトークン化は望ましいか? 本研究では,人間のトークン化(適切性)とMLモデル(NLPタスクの性能)の関係について検討した。 日本語コモンセンス問合せデータセットの質問文を6種類のトークン化器を用いてトークン化し,人間のアノテータとMLモデルの性能を比較した。 さらに,人間モデルとmlモデルによる回答性能の関係,人間に対するトークン化の適切性,質問に対する応答時間について分析した。 この研究は、人間とMLモデルのトークン化が必ずしも同じとは限らないことを示す定量的研究結果を提供する。 その結果、トークン化に言語モデルを使用する既存の方法が、人間モデルとmlモデルの両方にとってよい妥協点になる可能性がある。

Is preferred tokenization for humans also preferred for machine-learning (ML) models? This study examines the relations between preferred tokenization for humans (appropriateness and readability) and one for ML models (performance on an NLP task). The question texts of the Japanese commonsense question-answering dataset are tokenized with six different tokenizers, and the performances of human annotators and ML models were compared. Furthermore, we analyze relations among performance of answers by human and ML model, the appropriateness of tokenization for human, and response time to questions by human. This study provides a quantitative investigation result that shows that preferred tokenizations for humans and ML models are not necessarily always the same. The result also implies that existing methods using language models for tokenization could be a good compromise both for human and ML models.
翻訳日:2024-02-16 21:29:23 公開日:2024-02-15
# エッジでのディープラーニングアプリケーションにおける階層推論のためのオンラインアルゴリズム

Online Algorithms for Hierarchical Inference in Deep Learning applications at the Edge ( http://arxiv.org/abs/2304.00891v2 )

ライセンス: Link先を確認
Vishnu Narayanan Moothedath, Jaya Prakash Champati, James Gross(参考訳) 汎用分類アプリケーション用の小型MLモデル(S-ML)と大規模MLモデル(L-ML)をホストするエッジサーバ(ES)を組み込んだ,IoTセンサやマイクロコントローラユニットなどのリソース制約エッジデバイス(ED)について検討する。 S-MLの推論精度はL-MLよりも低いため、すべてのデータサンプルをESにオフロードすると高い推測精度が得られるが、EDにS-MLを埋め込むことの目的を損なうとともに、遅延低減、帯域幅の節約、ローカル推論のエネルギー効率を損なう。 両方の世界、すなわち、edで推論を行うことの利点と、esで推論することの利点を最大限に活用するために、階層的推論(hi)のアイデアを検討し、s-ml推論は正しい場合にのみ受け入れられるが、そうでない場合はデータサンプルがl-ml推論のためにオフロードされる。 しかし、HIの理想的な実装は、S-ML推論の正しさがEDに知られていないため、実現不可能である。 EDがS-ML推論の正確性を予測するために利用できるオンラインメタ学習フレームワークを提案する。 具体的には、S-MLが出力する最大ソフトマックス値をデータサンプルに使用し、オフロードするかどうかを決定する。 その結果、オンライン学習の問題は、エキスパートアドバイザによる予測(Expert Advice:PEA)問題であることがわかった。 損失関数の滑らかさを仮定することなく, 2つの異なるアルゴリズムを提案し, サブ線形後悔境界を証明した。 我々は,画像分類用アルゴリズムであるImagenetteとImagewoof,MNIST,CIFAR-10の4つのデータセットを用いて,提案アルゴリズムの性能評価とベンチマークを行った。

We consider a resource-constrained Edge Device (ED), such as an IoT sensor or a microcontroller unit, embedded with a small-size ML model (S-ML) for a generic classification application and an Edge Server (ES) that hosts a large-size ML model (L-ML). Since the inference accuracy of S-ML is lower than that of the L-ML, offloading all the data samples to the ES results in high inference accuracy, but it defeats the purpose of embedding S-ML on the ED and deprives the benefits of reduced latency, bandwidth savings, and energy efficiency of doing local inference. In order to get the best out of both worlds, i.e., the benefits of doing inference on the ED and the benefits of doing inference on ES, we explore the idea of Hierarchical Inference (HI), wherein S-ML inference is only accepted when it is correct, otherwise the data sample is offloaded for L-ML inference. However, the ideal implementation of HI is infeasible as the correctness of the S-ML inference is not known to the ED. We propose an online meta-learning framework that the ED can use to predict the correctness of the S-ML inference. In particular, we propose to use the maximum softmax value output by S-ML for a data sample and decide whether to offload it or not. The resulting online learning problem turns out to be a Prediction with Expert Advice (PEA) problem with continuous expert space. We propose two different algorithms and prove sublinear regret bounds for them without any assumption on the smoothness of the loss function. We evaluate and benchmark the performance of the proposed algorithms for image classification application using four datasets, namely, Imagenette and Imagewoof, MNIST, and CIFAR-10.
翻訳日:2024-02-16 21:29:08 公開日:2024-02-15
# zeroth-order optimizationは人間のフィードバックを満たす - ランキングオラクルによる証明可能な学習

Zeroth-Order Optimization Meets Human Feedback: Provable Learning via Ranking Oracles ( http://arxiv.org/abs/2303.03751v2 )

ライセンス: Link先を確認
Zhiwei Tang, Dmitry Rybin, Tsung-Hui Chang(参考訳) 本研究では,ブラックボックスの目的関数を,現実世界のシナリオ,特に人間の審査員による評価において頻繁に発生する格付けオラクルの状況を通じてのみ測定できるような,新たな最適化課題を掘り下げる。 このような課題は、人間によるガイダンスを用いた大規模言語モデル(LLM)のパフォーマンス向上に最近採用されたRLHF(Reinforcement Learning with Human Feedback)から着想を得ている。 本稿では,この最適化問題に対処するために,理論的な保証を伴う革新的なゼロ次最適化アルゴリズムである zo-ranksgd を提案する。 本アルゴリズムは,新しいランクベース乱数推定器を用いて降下方向を判定し,静止点への収束を保証する。 さらに、ZO-RankSGDは強化学習(RL)におけるポリシー最適化問題にも容易に適用できる。 最後に,人間ランキングフィードバックによる拡散生成モデルによる画像品質の向上という新しい応用において,zo-ranksgdの有効性を示す。 実験を通して、ZO-RankSGDは、ほんの数ラウンドのフィードバックだけで生成した画像のディテールを大幅に向上できることがわかった。 全体的な研究は、ランク付けフィードバックのみで関数を最適化する問題に対処することで、ゼロ階最適化の分野を前進させ、人工知能(AI)を人間の意図に合わせるための新しい効果的なアプローチを提供する。

In this study, we delve into an emerging optimization challenge involving a black-box objective function that can only be gauged via a ranking oracle-a situation frequently encountered in real-world scenarios, especially when the function is evaluated by human judges. Such challenge is inspired from Reinforcement Learning with Human Feedback (RLHF), an approach recently employed to enhance the performance of Large Language Models (LLMs) using human guidance. We introduce ZO-RankSGD, an innovative zeroth-order optimization algorithm designed to tackle this optimization problem, accompanied by theoretical assurances. Our algorithm utilizes a novel rank-based random estimator to determine the descent direction and guarantees convergence to a stationary point. Moreover, ZO-RankSGD is readily applicable to policy optimization problems in Reinforcement Learning (RL), particularly when only ranking oracles for the episode reward are available. Last but not least, we demonstrate the effectiveness of ZO-RankSGD in a novel application: improving the quality of images generated by a diffusion generative model with human ranking feedback. Throughout experiments, we found that ZO-RankSGD can significantly enhance the detail of generated images with only a few rounds of human feedback. Overall, our work advances the field of zeroth-order optimization by addressing the problem of optimizing functions with only ranking feedback, and offers a new and effective approach for aligning Artificial Intelligence (AI) with human intentions.
翻訳日:2024-02-16 21:28:36 公開日:2024-02-15
# 与えられたサブタスク分解を用いた複雑なチームワークタスクの学習

Learning Complex Teamwork Tasks Using a Given Sub-task Decomposition ( http://arxiv.org/abs/2302.04944v2 )

ライセンス: Link先を確認
Elliot Fosong, Arrasy Rahman, Ignacio Carlucho, Stefano V. Albrecht(参考訳) 大規模共同政策空間における政策探索や,エージェントの相互適応による非定常性といった課題のため,多エージェント強化学習による複雑なタスクをチームで遂行することは困難である。 複雑なマルチエージェントタスクの効率的な学習を容易にするために,タスクをよりシンプルなマルチエージェントサブタスクに分解する手法を提案する。 各サブタスクでは、チームの一部がサブタスク固有のポリシーを取得するように訓練される。 その後、サブチームはマージされ、ターゲットタスクに転送され、それらのポリシーは、より複雑なターゲットタスクを解決するためにまとめて微調整される。 本研究では,このような手法により,複雑な目標課題の解決に要する時間ステップを大幅に削減できることを示す。 しかし,サブタスク分解に基づくアプローチのナイーブな実装による2つの問題を特定し,検討し,既存のアクタ批判アルゴリズムを補強するこれらの問題に対処するための,単純でスケーラブルな手法を提案する。 提案手法の実証的な利点を実証し,多様なマルチエージェントタスクにサブタスク分解アプローチを適用できるようにする。

Training a team to complete a complex task via multi-agent reinforcement learning can be difficult due to challenges such as policy search in a large joint policy space, and non-stationarity caused by mutually adapting agents. To facilitate efficient learning of complex multi-agent tasks, we propose an approach which uses an expert-provided decomposition of a task into simpler multi-agent sub-tasks. In each sub-task, a subset of the entire team is trained to acquire sub-task-specific policies. The sub-teams are then merged and transferred to the target task, where their policies are collectively fine-tuned to solve the more complex target task. We show empirically that such approaches can greatly reduce the number of timesteps required to solve a complex target task relative to training from-scratch. However, we also identify and investigate two problems with naive implementations of approaches based on sub-task decomposition, and propose a simple and scalable method to address these problems which augments existing actor-critic algorithms. We demonstrate the empirical benefits of our proposed method, enabling sub-task decomposition approaches to be deployed in diverse multi-agent tasks.
翻訳日:2024-02-16 21:27:41 公開日:2024-02-15
# リスク感性指数コストマルコフ決定過程における修正政策反復の収束性について

On the Convergence of Modified Policy Iteration in Risk Sensitive Exponential Cost Markov Decision Processes ( http://arxiv.org/abs/2302.03811v2 )

ライセンス: Link先を確認
Yashaswini Murthy, Mehrdad Moharrami and R. Srikant(参考訳) MPI(Modified Policy iteration)は、ポリシーの反復と価値の反復の要素を組み合わせた動的プログラミングアルゴリズムである。 MPIの収束は、割引および平均コストのMDPの文脈でよく研究されている。 本研究では,モデルパラメータにロバスト性を有する指数的コストリスク感応型MDPの定式化について考察する。 政策の反復と価値の反復はリスクに敏感なMDPの文脈でよく研究されているが、MPIは未検討である。 MPIが有限状態および作用空間の場合のリスク感受性問題にも収束するという最初の証明を提供する。 指数的コストの定式化は、乗法ベルマン方程式を扱うので、我々の主な貢献は、割引やリスクニュートラルな平均コスト問題に対する既存の結果と全く異なる収束証明であり、リスクセンシティブな値とポリシーの反復アプローチである。 我々は,MPIの性能を,様々な問題パラメータにまたがる値反復やポリシー反復といった他の動的プログラミング手法と比較して評価する。 本研究は,リスクに敏感なMPIの計算効率を,価値とポリシーの反復技術と比較した。

Modified policy iteration (MPI) is a dynamic programming algorithm that combines elements of policy iteration and value iteration. The convergence of MPI has been well studied in the context of discounted and average-cost MDPs. In this work, we consider the exponential cost risk-sensitive MDP formulation, which is known to provide some robustness to model parameters. Although policy iteration and value iteration have been well studied in the context of risk sensitive MDPs, MPI is unexplored. We provide the first proof that MPI also converges for the risk-sensitive problem in the case of finite state and action spaces. Since the exponential cost formulation deals with the multiplicative Bellman equation, our main contribution is a convergence proof which is quite different than existing results for discounted and risk-neutral average-cost problems as well as risk sensitive value and policy iteration approaches. We conclude our analysis with simulation results, assessing MPI's performance relative to alternative dynamic programming methods like value iteration and policy iteration across diverse problem parameters. Our findings highlight risk-sensitive MPI's enhanced computational efficiency compared to both value and policy iteration techniques.
翻訳日:2024-02-16 21:26:42 公開日:2024-02-15
# simcs: ドメインインクリメンタルオンライン連続セグメンテーションのためのシミュレーション

SimCS: Simulation for Domain Incremental Online Continual Segmentation ( http://arxiv.org/abs/2211.16234v2 )

ライセンス: Link先を確認
Motasem Alfarra, Zhipeng Cai, Adel Bibi, Bernard Ghanem, Matthias M\"uller(参考訳) 継続学習は、モデルが過去の知識を忘れずに最近収集されたデータから継続的に学習する、生涯的知性へのステップである。 既存の連続学習アプローチは主に、明確なタスク境界と無制限の計算予算を持つクラス増分設定における画像分類に焦点を当てている。 この研究は、異なるドメインの密にラベル付けされた画像のバッチでモデルが継続的に訓練されるオンラインドメイン・インクリメンタル・コンティニュアル・セグメンテーション(odics)の問題を探求する。 ODICSは多くの実用的応用に現れる。 自律運転では、これは複数の都市で時間をかけてセグメンテーションモデルを訓練する現実的なシナリオに対応しているかもしれない。 本研究では,既存の連続学習手法を複数解析し,クラスインクリメンタルセグメンテーションにおいてうまく機能しているにもかかわらず,この環境では性能が良くないことを示す。 シミュレーションデータを用いて連続学習を規則化するパラメータフリー手法であるSimCSを提案する。 実験によると、SimCSは異なるCLメソッドと組み合わせて一貫した改善を提供する。

Continual Learning is a step towards lifelong intelligence where models continuously learn from recently collected data without forgetting previous knowledge. Existing continual learning approaches mostly focus on image classification in the class-incremental setup with clear task boundaries and unlimited computational budget. This work explores the problem of Online Domain-Incremental Continual Segmentation (ODICS), where the model is continually trained over batches of densely labeled images from different domains, with limited computation and no information about the task boundaries. ODICS arises in many practical applications. In autonomous driving, this may correspond to the realistic scenario of training a segmentation model over time on a sequence of cities. We analyze several existing continual learning methods and show that they perform poorly in this setting despite working well in class-incremental segmentation. We propose SimCS, a parameter-free method complementary to existing ones that uses simulated data to regularize continual learning. Experiments show that SimCS provides consistent improvements when combined with different CL methods.
翻訳日:2024-02-16 21:26:20 公開日:2024-02-15
# MAEDAY:MAE for few and zero shot AnomalY-Detection

MAEDAY: MAE for few and zero shot AnomalY-Detection ( http://arxiv.org/abs/2211.14307v2 )

ライセンス: Link先を確認
Eli Schwartz, Assaf Arbelle, Leonid Karlinsky, Sivan Harary, Florian Scheidegger, Sivan Doveh, Raja Giryes(参考訳) 画像の塗布を自己指導するトランスフォーマーモデルであるMasked Auto-Encoder (MAE) を異常検出(AD)に使用することを提案する。 異常領域を仮定すると、通常の領域に比べて再構成が難しい。 MAEDAYは、事前訓練されたモデルを用いてFew-Shot Anomaly Detection (FSAD) を可能にする最初の画像再構成ベースの異常検出手法である。 また,ZSAD (Zero-Shot AD) やZSFOD (Zero-Shot Foreign Object Detection) といった,通常のサンプルが存在しない新しいタスクに対して,同様の手法が驚くほど有効であることを示す。 コードはhttps://github.com/EliSchwartz/MAEDAY で入手できる。

We propose using Masked Auto-Encoder (MAE), a transformer model self-supervisedly trained on image inpainting, for anomaly detection (AD). Assuming anomalous regions are harder to reconstruct compared with normal regions. MAEDAY is the first image-reconstruction-based anomaly detection method that utilizes a pre-trained model, enabling its use for Few-Shot Anomaly Detection (FSAD). We also show the same method works surprisingly well for the novel tasks of Zero-Shot AD (ZSAD) and Zero-Shot Foreign Object Detection (ZSFOD), where no normal samples are available. Code is available at https://github.com/EliSchwartz/MAEDAY .
翻訳日:2024-02-16 21:26:03 公開日:2024-02-15
# 地域提案ネットワークによるラベル効率の良い物体検出

Label-Efficient Object Detection via Region Proposal Network Pre-Training ( http://arxiv.org/abs/2211.09022v2 )

ライセンス: Link先を確認
Nanqing Dong, Linus Ericsson, Yongxin Yang, Ales Leonardis and Steven McDonagh(参考訳) 自己教師付き事前学習は、インスタンス識別のプリテキストタスクに基づいて、最近のラベル効率の高いオブジェクト検出の進歩を促している。 しかし、既存の研究では、下流検出タスクの転送可能表現を学ぶために、特徴抽出ネットワークのみを事前学習することに焦点を当てている。 これにより、微調整フェーズで複数の検出固有のモジュールをスクラッチからトレーニングする必要がある。 多段検出器のローカライズ誤差を低減するために,共通検出専用モジュールである地域提案ネットワーク (RPN) を事前訓練することができると論じる。 本研究では,rpnの効果的な事前学習を提供し,下流のオブジェクト検出性能を効率的に向上させる簡易なプリテキストタスクを提案する。 ベンチマーク対象検出タスクおよびインスタンスセグメンテーションや少数ショット検出を含む下流タスクに対する提案手法の有効性を評価した。 RPN事前学習を行わないマルチステージ検出器と比較して,本手法はダウンストリームタスク性能を継続的に改善し,ラベルスカース設定で最大ゲインを得られる。

Self-supervised pre-training, based on the pretext task of instance discrimination, has fueled the recent advance in label-efficient object detection. However, existing studies focus on pre-training only a feature extractor network to learn transferable representations for downstream detection tasks. This leads to the necessity of training multiple detection-specific modules from scratch in the fine-tuning phase. We argue that the region proposal network (RPN), a common detection-specific module, can additionally be pre-trained towards reducing the localization error of multi-stage detectors. In this work, we propose a simple pretext task that provides an effective pre-training for the RPN, towards efficiently improving downstream object detection performance. We evaluate the efficacy of our approach on benchmark object detection tasks and additional downstream tasks, including instance segmentation and few-shot detection. In comparison with multi-stage detectors without RPN pre-training, our approach is able to consistently improve downstream task performance, with largest gains found in label-scarce settings.
翻訳日:2024-02-16 21:25:47 公開日:2024-02-15
# 航空機画像における任意方向物体検出のためのタスクワイズサンプリング畳み込み

Task-wise Sampling Convolutions for Arbitrary-Oriented Object Detection in Aerial Images ( http://arxiv.org/abs/2209.02200v2 )

ライセンス: Link先を確認
Zhanchao Huang, Wei Li, Xiang-Gen Xia, Hao Wang, and Ran Tao(参考訳) 任意指向物体検出(aood)は、リモートセンシング画像における多様な向きを持つ物体の同定と分類に広く用いられている。 しかし、AOODモデルにおける局所化と分類タスクの不整合性は、検出性能を制約する曖昧さと低品質なオブジェクト予測につながる可能性がある。 本稿では,タスクワイズサンプリング畳み込み(TS-Conv)と呼ばれるAOOD手法を提案する。 TS-Convは、各センシティブな領域からタスクワイズな特徴を適応的にサンプリングし、これらの特徴をアライメントしてマッピングすることで、より優れた予測のための動的ラベル割り当てをガイドする。 具体的には、TS-Convにおける局所化畳み込みのサンプリング位置は、空間座標に付随する配向境界ボックス(OBB)予測によって制御される。 分類畳み込みのサンプリング位置と畳み込み核は、特徴の配向ロバスト性を改善するために異なる向きに応じて適応的に調整されるように設計されている。 さらに、TS-Convから得られたランク付タスク対応スコアに応じて最適な候補位置を選択し、ラベルを動的に割り当てる動的タスク対応ラベル割り当て(DTLA)戦略を開発する。 複数のシーン、マルチモーダル画像、複数カテゴリのオブジェクトを含む複数の公開データセットに対する大規模な実験は、提案したTS-Convの有効性、スケーラビリティ、優れた性能を示している。

Arbitrary-oriented object detection (AOOD) has been widely applied to locate and classify objects with diverse orientations in remote sensing images. However, the inconsistent features for the localization and classification tasks in AOOD models may lead to ambiguity and low-quality object predictions, which constrains the detection performance. In this paper, an AOOD method called task-wise sampling convolutions (TS-Conv) is proposed. TS-Conv adaptively samples task-wise features from respective sensitive regions and maps these features together in alignment to guide a dynamic label assignment for better predictions. Specifically, sampling positions of the localization convolution in TS-Conv is supervised by the oriented bounding box (OBB) prediction associated with spatial coordinates. While sampling positions and convolutional kernel of the classification convolution are designed to be adaptively adjusted according to different orientations for improving the orientation robustness of features. Furthermore, a dynamic task-aware label assignment (DTLA) strategy is developed to select optimal candidate positions and assign labels dynamicly according to ranked task-aware scores obtained from TS-Conv. Extensive experiments on several public datasets covering multiple scenes, multimodal images, and multiple categories of objects demonstrate the effectiveness, scalability and superior performance of the proposed TS-Conv.
翻訳日:2024-02-16 21:25:29 公開日:2024-02-15
# froodo: 分散検出のためのフレームワーク

FrOoDo: Framework for Out-of-Distribution Detection ( http://arxiv.org/abs/2208.00963v2 )

ライセンス: Link先を確認
Jonathan Stieber, Moritz Fuchs, Anirban Mukhopadhyay(参考訳) froodoは、デジタル病理学における分散検出タスクの使いやすさと柔軟性を備えたフレームワークである。 pytorch分類とセグメンテーションモデルで使用することができ、そのモジュール設計により拡張が容易になる。 目標は、OoD Evaluationのタスクを自動化することで、新しいモデルの設計、新しいメソッド、新しいデータセットの評価といった目的に研究が集中できるようにすることだ。 コードはhttps://github.com/MECLabTUDA/FrOoDoで見ることができる。

FrOoDo is an easy-to-use and flexible framework for Out-of-Distribution detection tasks in digital pathology. It can be used with PyTorch classification and segmentation models, and its modular design allows for easy extension. The goal is to automate the task of OoD Evaluation such that research can focus on the main goal of either designing new models, new methods or evaluating a new dataset. The code can be found at https://github.com/MECLabTUDA/FrOoDo.
翻訳日:2024-02-16 21:25:07 公開日:2024-02-15
# MS-RNN:時空間予測学習のための柔軟なマルチスケールフレームワーク

MS-RNN: A Flexible Multi-Scale Framework for Spatiotemporal Predictive Learning ( http://arxiv.org/abs/2206.03010v6 )

ライセンス: Link先を確認
Zhifeng Ma, Hao Zhang, and Jie Liu(参考訳) 深層学習の助けを借りて、過去の知識を通じて将来のフレームを予測する時空間予測学習は、多くの分野で広く使われている。 これまでの作業では,ネットワークの拡大あるいは深化によるモデルパフォーマンスの向上が基本的に行われていたが,メモリオーバーヘッドの増加によって,このテクノロジの開発や適用が著しく妨げられている。 メモリ消費を増大させることなく性能を向上させるため,我々はモデル性能を改善するための別の次元であるスケールに注力する。 この効果は画像分類やセマンティックセグメンテーションといった多くのCNNベースのタスクで広く実証されてきたが、近年のRNNモデルでは十分に研究されていない。 本稿では,マルチスケールの利点から学習し,時空間予測学習のための最近のrnnモデルを強化するために,マルチスケールrnn(ms-rnn)という汎用フレームワークを提案する。 実験には8つのRNNモデル(ConvLSTM、TrajGRU、PredRNN、PredRNN++、MIM、MotionRNN、PredRNN-V2、PrecipLSTM)と4つのデータセット(MNIST、TaxiBJ、KTH、ドイツ)が使用されている。 結果は、我々のフレームワークを組み込んだrnnモデルが、メモリコストがずっと低く、以前よりもパフォーマンスが良い効率を示す。 私たちのコードは \url{https://github.com/mazhf/ms-rnn} でリリースされる。

Spatiotemporal predictive learning, which predicts future frames through historical prior knowledge with the aid of deep learning, is widely used in many fields. Previous work essentially improves the model performance by widening or deepening the network, but it also brings surging memory overhead, which seriously hinders the development and application of this technology. In order to improve the performance without increasing memory consumption, we focus on scale, which is another dimension to improve model performance but with low memory requirement. The effectiveness has been widely demonstrated in many CNN-based tasks such as image classification and semantic segmentation, but it has not been fully explored in recent RNN models. In this paper, learning from the benefit of multi-scale, we propose a general framework named Multi-Scale RNN (MS-RNN) to boost recent RNN models for spatiotemporal predictive learning. We verify the MS-RNN framework by thorough theoretical analyses and exhaustive experiments, where the theory focuses on memory reduction and performance improvement while the experiments employ eight RNN models (ConvLSTM, TrajGRU, PredRNN, PredRNN++, MIM, MotionRNN, PredRNN-V2, and PrecipLSTM) and four datasets (Moving MNIST, TaxiBJ, KTH, and Germany). The results show the efficiency that RNN models incorporating our framework have much lower memory cost but better performance than before. Our code is released at \url{https://github.com/mazhf/MS-RNN}.
翻訳日:2024-02-16 21:24:40 公開日:2024-02-15
# FormalGeo: オリンピック幾何学的問題解決のための拡張可能な形式化フレームワーク

FormalGeo: An Extensible Formalized Framework for Olympiad Geometric Problem Solving ( http://arxiv.org/abs/2310.18021v6 )

ライセンス: Link先を確認
Xiaokai Zhang, Na Zhu, Yiming He, Jia Zou, Qike Huang, Xiaoxiao Jin, Yanjun Guo, Chenyang Mao, Yang Li, Zhe Zhu, Dengfeng Yue, Fangzhen Zhu, Yifan Wang, Yiwen Huang, Runan Wang, Cheng Qin, Zhenbing Zeng, Shaorong Xie, Xiangfeng Luo, Tuo Leng(参考訳) これは、私たちが過去3年間に達成した一連の研究における最初の論文です。 本稿では,一貫した形式的平面幾何学システムを構築した。 これは、IMOレベルの平面形状問題と可読性AI自動推論の間に重要な橋渡しとなる。 このフォーマルなフレームワークでは、最新のAIモデルをフォーマルなシステムとシームレスに統合することができます。 aiは、他の自然言語を扱うのと同じように、imoレベルの平面幾何問題に対する推論的推論ソリューションを提供することができ、これらの証明は可読性、トレース性、検証可能である。 本稿では,幾何形式体系の発展を導くために,幾何形式化理論(GFT)を提案する。 GFTに基づいて、88の幾何述語と196の定理からなるフォーマルジオを確立した。 IMOレベルの幾何学問題を表現、検証、解決することができる。 また、PythonでFGPS(形式幾何学問題の解法)も作成しました。 問題解決プロセスを検証するための対話型アシスタントと自動問題解決ツールの両方として機能する。 formalgeo7k と formalgeo-imo データセットにアノテートしました。 前者は6,981 (データ拡張による133,818) の幾何学問題を含み、後者は18 (2,627) の IMO レベルの挑戦幾何学問題を含んでいる。 注釈付き問題には、詳細な形式的な言語記述と解決策が含まれる。 形式システムの実装と実験は、GFTの正当性と有用性を検証する。 奥行き優先探索法は2.42%の問題解決失敗率しか生み出せず,より低い解を得るために深層学習手法を組み込むことができる。 FGPSとデータセットのソースコードはhttps://github.com/BitSecret/FGPSで入手できる。

This is the first paper in a series of work we have accomplished over the past three years. In this paper, we have constructed a consistent formal plane geometry system. This will serve as a crucial bridge between IMO-level plane geometry challenges and readable AI automated reasoning. Within this formal framework, we have been able to seamlessly integrate modern AI models with our formal system. AI is now capable of providing deductive reasoning solutions to IMO-level plane geometry problems, just like handling other natural languages, and these proofs are readable, traceable, and verifiable. We propose the geometry formalization theory (GFT) to guide the development of the geometry formal system. Based on the GFT, we have established the FormalGeo, which consists of 88 geometric predicates and 196 theorems. It can represent, validate, and solve IMO-level geometry problems. we also have crafted the FGPS (formal geometry problem solver) in Python. It serves as both an interactive assistant for verifying problem-solving processes and an automated problem solver. We've annotated the formalgeo7k and formalgeo-imo datasets. The former contains 6,981 (expand to 133,818 through data augmentation) geometry problems, while the latter includes 18 (expand to 2,627 and continuously increasing) IMO-level challenging geometry problems. All annotated problems include detailed formal language descriptions and solutions. Implementation of the formal system and experiments validate the correctness and utility of the GFT. The backward depth-first search method only yields a 2.42% problem-solving failure rate, and we can incorporate deep learning techniques to achieve lower one. The source code of FGPS and datasets are available at https://github.com/BitSecret/FGPS.
翻訳日:2024-02-16 21:18:21 公開日:2024-02-15
# MEDL-U: 証拠深層学習に基づく不確かさを意識した3次元自動アノテーション

MEDL-U: Uncertainty-aware 3D Automatic Annotation based on Evidential Deep Learning ( http://arxiv.org/abs/2309.09599v3 )

ライセンス: Link先を確認
Helbert Paat, Qing Lian, Weilong Yao, Tong Zhang(参考訳) ディープラーニングベースの3Dオブジェクト検出の進歩は、大規模なデータセットの可用性を必要とする。 しかし、この要件は手動アノテーションの課題を提起している。 この問題に対処するため、文献では、ラベルなしデータの擬似ラベルを自動的に生成できる3次元オブジェクト検出のための弱教師付きフレームワークがいくつか出現している。 それにもかかわらず、これらの生成された擬似ラベルはノイズを含み、人間のラベルほど正確ではない。 本稿では,Evidential Deep Learning(EDL)に基づく不確実性推定フレームワークを導入することにより,擬似ラベルに存在する固有曖昧性に対処する最初のアプローチを提案する。 具体的には,MTransに基づくEDLフレームワークであるMEDL-Uを提案する。 しかし,EDLを3次元物体検出に適用することは,(1)他のオートラボラに比べて比較的低い擬似ラベル品質,(2)過度に明らかな不確実性評価,(3)下流タスクにおける明確な解釈可能性の欠如,有効利用の3つの課題を生じさせる。 我々は,不確実性を考慮したiouベースの損失,エビデンス対応マルチタスク損失関数の導入,不確実性改善のための後処理ステージの実装を通じて,これらの課題に取り組む。 実験の結果,MEDL-Uの出力を用いてトレーニングした確率的検出器は,KITTI val の以前の3次元アノテータの出力を用いて訓練した決定論的検出器を超えていることがわかった。 さらに,MEDL-Uは,既存の3D自動アノテータと比較して,KITTIオフィシャルテストセットの最先端結果を達成している。

Advancements in deep learning-based 3D object detection necessitate the availability of large-scale datasets. However, this requirement introduces the challenge of manual annotation, which is often both burdensome and time-consuming. To tackle this issue, the literature has seen the emergence of several weakly supervised frameworks for 3D object detection which can automatically generate pseudo labels for unlabeled data. Nevertheless, these generated pseudo labels contain noise and are not as accurate as those labeled by humans. In this paper, we present the first approach that addresses the inherent ambiguities present in pseudo labels by introducing an Evidential Deep Learning (EDL) based uncertainty estimation framework. Specifically, we propose MEDL-U, an EDL framework based on MTrans, which not only generates pseudo labels but also quantifies the associated uncertainties. However, applying EDL to 3D object detection presents three primary challenges: (1) relatively lower pseudolabel quality in comparison to other autolabelers; (2) excessively high evidential uncertainty estimates; and (3) lack of clear interpretability and effective utilization of uncertainties for downstream tasks. We tackle these issues through the introduction of an uncertainty-aware IoU-based loss, an evidence-aware multi-task loss function, and the implementation of a post-processing stage for uncertainty refinement. Our experimental results demonstrate that probabilistic detectors trained using the outputs of MEDL-U surpass deterministic detectors trained using outputs from previous 3D annotators on the KITTI val set for all difficulty levels. Moreover, MEDL-U achieves state-of-the-art results on the KITTI official test set compared to existing 3D automatic annotators.
翻訳日:2024-02-16 21:17:52 公開日:2024-02-15
# 大規模言語モデルを用いた同時機械翻訳

Simultaneous Machine Translation with Large Language Models ( http://arxiv.org/abs/2309.06706v2 )

ライセンス: Link先を確認
Minghan Wang, Jinming Zhao, Thuy-Trang Vu, Fatemeh Shiri, Ehsan Shareghi, Gholamreza Haffari(参考訳) 実世界の同時機械翻訳(SimulMT)システムは、単に品質とレイテンシのトレードオフ以上の課題に直面している。 また、ノイズの多い入力、長いコンテキストの処理、知識注入の柔軟性に関する問題にも対処する必要があります。 これらの課題は、強力な言語理解と生成能力を持つモデルを必要とする。 本稿では,新たに提案された RALCP アルゴリズムを用いて,既存のインクリメンタルデコーディング手法を用いて,SimulMT タスクにLarge Language Models (LLM) を適用する可能性を検討する。 must-cデータセットから9つの異なる言語で \texttt{llama2-7b-chat}モデルを用いて実験を行った。 その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。 さらなる分析は、LLMがチューニング効率とロバストネスの点で有利であることを示している。 しかし、LLMの計算コストは、SimulMTにおけるその応用にとって大きな障害であり続けている点に注意する必要がある。 コード、重み、データを公開と共にリリースします。 }

Real-world simultaneous machine translation (SimulMT) systems face more challenges than just the quality-latency trade-off. They also need to address issues related to robustness with noisy input, processing long contexts, and flexibility for knowledge injection. These challenges demand models with strong language understanding and generation capabilities which may not often equipped by dedicated MT models. In this paper, we investigate the possibility of applying Large Language Models (LLM) to SimulMT tasks by using existing incremental-decoding methods with a newly proposed RALCP algorithm for latency reduction. We conducted experiments using the \texttt{Llama2-7b-chat} model on nine different languages from the MUST-C dataset. The results show that LLM outperforms dedicated MT models in terms of BLEU and LAAL metrics. Further analysis indicates that LLM has advantages in terms of tuning efficiency and robustness. However, it is important to note that the computational cost of LLM remains a significant obstacle to its application in SimulMT.\footnote{We will release our code, weights, and data with publication.}
翻訳日:2024-02-16 21:17:22 公開日:2024-02-15
# バンディットの集中的微分プライバシー

Concentrated Differential Privacy for Bandits ( http://arxiv.org/abs/2309.00557v2 )

ライセンス: Link先を確認
Achraf Azize, Debabrota Basu(参考訳) バンディットは逐次学習の理論的基礎であり、現代のレコメンデーションシステムのアルゴリズム的基礎である。 しかしながら、レコメンデータシステムは、しばしばユーザセンシティブなデータに依存し、プライバシーが重要な懸念事項となっている。 本稿では,集中型意思決定者によるバンディットにおけるディファレンシャルプライバシ(dp)の理解,特に集中型ディファレンシャルプライバシ(zcdp)の確保の意義について述べる。 まず, dpとバンドイットの異なる適応を, 入力と相互作用プロトコルに応じて形式化し比較する。 次に,有限腕バンディット,線形バンディット,線形コンテキストバンディットの3つのバンディット設定に対して,adac-ucb,adac-gope,adac-ofulの3つのプライベートアルゴリズムを提案する。 3つのアルゴリズムは、適切なプライバシー利用のトレードオフを確保するために、gaussian mechanismとadaptive episodesという、一般的なアルゴリズムの青写真を共有する。 これら3つのアルゴリズムの後悔を解析し、上位に並べる。 われわれの分析によると、これらの設定のすべてにおいて、zCDPを挿入する価格は(漸近的に)プライバシーを損なう後悔と比べて無視できる。 次に,ZCDP による盗賊の遺残に対する第1のミニマックス下限を補完する。 低境界を証明するために,結合と最適輸送に基づく新しい証明手法を提案する。 バンドの3つの異なる設定に対する理論的結果を実験的に検証して結論付ける。

Bandits serve as the theoretical foundation of sequential learning and an algorithmic foundation of modern recommender systems. However, recommender systems often rely on user-sensitive data, making privacy a critical concern. This paper contributes to the understanding of Differential Privacy (DP) in bandits with a trusted centralised decision-maker, and especially the implications of ensuring zero Concentrated Differential Privacy (zCDP). First, we formalise and compare different adaptations of DP to bandits, depending on the considered input and the interaction protocol. Then, we propose three private algorithms, namely AdaC-UCB, AdaC-GOPE and AdaC-OFUL, for three bandit settings, namely finite-armed bandits, linear bandits, and linear contextual bandits. The three algorithms share a generic algorithmic blueprint, i.e. the Gaussian mechanism and adaptive episodes, to ensure a good privacy-utility trade-off. We analyse and upper bound the regret of these three algorithms. Our analysis shows that in all of these settings, the prices of imposing zCDP are (asymptotically) negligible in comparison with the regrets incurred oblivious to privacy. Next, we complement our regret upper bounds with the first minimax lower bounds on the regret of bandits with zCDP. To prove the lower bounds, we elaborate a new proof technique based on couplings and optimal transport. We conclude by experimentally validating our theoretical results for the three different settings of bandits.
翻訳日:2024-02-16 21:17:07 公開日:2024-02-15
# ROAM:ニューラルポーズ記述子を用いたロバスト・オブジェクト認識動作生成

ROAM: Robust and Object-Aware Motion Generation Using Neural Pose Descriptors ( http://arxiv.org/abs/2308.12969v2 )

ライセンス: Link先を確認
Wanyue Zhang and Rishabh Dabral and Thomas Leimk\"uhler and Vladislav Golyanik and Marc Habermann and Christian Theobalt(参考訳) シーンインタラクションをサポートする3次元仮想キャラクターモーション合成のための既存の自動アプローチは、多様なオブジェクトと注釈付きインタラクションを持つ広範囲なモーションキャプチャデータセットでトレーニングしても、トレーニング分布外の新しいオブジェクトにうまく一般化しない。 本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,単一の参照オブジェクトの少ないモーションモデルをトレーニングすることで実現可能であることを示す。 我々は、オブジェクトのみのデータセットでトレーニングされた暗黙的な特徴表現を利用し、オブジェクトの周りにse(3)-同変ディスクリプタフィールドを符号化する。 未確認オブジェクトと参照ポーズオブジェクトペアが与えられた場合、参照ポーズに最も近い特徴空間のオブジェクト認識ポーズを最適化する。 最後に、l-nsm、すなわち、提案する双方向ポーズブレンディングスキームとロコモーションからオブジェクトインタラクションへシームレスに遷移するように訓練された運動生成モデルを用いる。 最先端手法との包括的数値比較とユーザスタディにより,未知の物体を用いたシナリオに対する3次元仮想キャラクタの動作とインタラクションの質,ロバスト性が大幅に向上することを示す。 プロジェクトのページはhttps://vcai.mpi-inf.mpg.de/projects/roam/で閲覧できます。

Existing automatic approaches for 3D virtual character motion synthesis supporting scene interactions do not generalise well to new objects outside training distributions, even when trained on extensive motion capture datasets with diverse objects and annotated interactions. This paper addresses this limitation and shows that robustness and generalisation to novel scene objects in 3D object-aware character synthesis can be achieved by training a motion model with as few as one reference object. We leverage an implicit feature representation trained on object-only datasets, which encodes an SE(3)-equivariant descriptor field around the object. Given an unseen object and a reference pose-object pair, we optimise for the object-aware pose that is closest in the feature space to the reference pose. Finally, we use l-NSM, i.e., our motion generation model that is trained to seamlessly transition from locomotion to object interaction with the proposed bidirectional pose blending scheme. Through comprehensive numerical comparisons to state-of-the-art methods and in a user study, we demonstrate substantial improvements in 3D virtual character motion and interaction quality and robustness to scenarios with unseen objects. Our project page is available at https://vcai.mpi-inf.mpg.de/projects/ROAM/.
翻訳日:2024-02-16 21:16:17 公開日:2024-02-15
# 簡単な合成データによる大言語モデルにおけるサイコフィナンシーの低減

Simple synthetic data reduces sycophancy in large language models ( http://arxiv.org/abs/2308.03958v2 )

ライセンス: Link先を確認
Jerry Wei and Da Huang and Yifeng Lu and Denny Zhou and Quoc V. Le(参考訳) 共犯性(sycophancy)は望ましくない行動であり、モデルがそのビューが客観的に正しくない場合であっても、その応答を人間のビューに従うように調整する(例えば、ユーザがリベラルであることを明かすと、リベラルなビューに適応する)。 本稿では,言語モデルにおけるサイコフィナンシーの有病率について検討し,その振舞いを軽減するための単純な合成データ介入を提案する。 まず、3つの統合作業(perez et al., 2022)で、モデルが正しい答えのない文(例えば政治)について意見を求めると、モデルのスケーリングと命令のチューニングの両方が最大540bのパラメータのパームモデルの統合度を大幅に増加させるのが観察される。 第2に、シンコファンシー評価を客観的に誤りである単純な追加文に拡張し、これらのステートメントが間違っていることを知っても、ユーザがそうした場合も言語モデルがそれに同意し続けることを見出します。 梅毒を減らすため,公共のNLPタスクを取り入れ,これらのタスクに対するユーザの意見に頑健なモデルを奨励する簡単な合成データ介入を提案する。 軽量な微調整ステップにこれらのデータを追加することで、ホールドアウトプロンプトのシンコファンティックな振る舞いを大幅に削減できる。 介入のための合成データを生成するコードはhttps://github.com/google/sycophancy-interventionにある。

Sycophancy is an undesirable behavior where models tailor their responses to follow a human user's view even when that view is not objectively correct (e.g., adapting liberal views once a user reveals that they are liberal). In this paper, we study the prevalence of sycophancy in language models and propose a simple synthetic-data intervention to reduce this behavior. First, on a set of three sycophancy tasks (Perez et al., 2022) where models are asked for an opinion on statements with no correct answers (e.g., politics), we observe that both model scaling and instruction tuning significantly increase sycophancy for PaLM models up to 540B parameters. Second, we extend sycophancy evaluations to simple addition statements that are objectively incorrect, finding that despite knowing that these statements are wrong, language models will still agree with them if the user does as well. To reduce sycophancy, we present a straightforward synthetic-data intervention that takes public NLP tasks and encourages models to be robust to user opinions on these tasks. Adding these data in a lightweight finetuning step can significantly reduce sycophantic behavior on held-out prompts. Code for generating synthetic data for intervention can be found at https://github.com/google/sycophancy-intervention.
翻訳日:2024-02-16 21:15:52 公開日:2024-02-15
# 重要度サンプリングによるパーソナライズドプライバシの増幅

Personalized Privacy Amplification via Importance Sampling ( http://arxiv.org/abs/2307.10187v2 )

ライセンス: Link先を確認
Dominik Fay, Sebastian Mair, Jens Sj\"olund(参考訳) 重要サンプリングのプライバシエンハンシング特性について検討する。 重要サンプリングでは、選択確率は不均一であり、選択されたデータポイントは選択確率の相互関係によって重み付けされる。 重要度サンプリングの多様性から,パーソナライズされたディファレンシャルプライバシの枠組みで結果を表現する。 まず、任意のパーソナライズド・ディペンデント・プライベートなメカニズムを任意の重要サンプリング分布にサブサンプリングし、その結果のメカニズムがパーソナライズド・ディペンデント・プライバシを満たすことを示す。 これは、重要サンプリングの結果をサブサンプリングすることによって確立されたプライバシー増幅の拡張を構成する。 そして,任意の固定機構に対して,最悪の場合のプライバシー制約を受ける最適サンプリング率を達成するサンプリング分布を導出する。 実験では,k-meansクラスタリングの例として,重要サンプリングのプライバシ,効率,正確性を評価する。

We examine the privacy-enhancing properties of importance sampling. In importance sampling, selection probabilities are heterogeneous and each selected data point is weighted by the reciprocal of its selection probability. Due to the heterogeneity of importance sampling, we express our results within the framework of personalized differential privacy. We first consider the general case where an arbitrary personalized differentially private mechanism is subsampled with an arbitrary importance sampling distribution and show that the resulting mechanism also satisfies personalized differential privacy. This constitutes an extension of the established privacy amplification by subsampling result to importance sampling. Then, for any fixed mechanism, we derive the sampling distribution that achieves the optimal sampling rate subject to a worst-case privacy constraint. Empirically, we evaluate the privacy, efficiency, and accuracy of importance sampling on the example of k-means clustering.
翻訳日:2024-02-16 21:14:51 公開日:2024-02-15
# Fourier-Mixed Window Attention: 時系列時系列予測のためのインバータ高速化

Fourier-Mixed Window Attention: Accelerating Informer for Long Sequence Time-Series Forecasting ( http://arxiv.org/abs/2307.00493v2 )

ライセンス: Link先を確認
Nhat Thanh Tran, Jack Xin(参考訳) Informerを高速化するための高速なローカル・グローバルウィンドウベースアテンション手法について検討した。 ウィンドウの注意は局所的であり、計算量を大幅に節約する一方で、その後のフーリエ変換ブロックによって補償されるグローバルトークン情報をキャプチャする能力が欠如している。 提案手法は,クエリの空間性仮説と,Informer の ProbSparse 対応に基づく経験的近似に依存しない。 単変量および多変量データセットの実験により、FWinトランスフォーマーはインフォーマーの全体的な予測精度を改善しつつ、推論速度を40%から50%加速することを示した。 また,非線形回帰モデルでは,時系列データに作用するインフォメータモデルのフルアテンション層から抽出したキーベクトルに基づいて,学習したフウィン型アテンションアプローチやソフトマックスフルアテンションよりも優れることを示した。

We study a fast local-global window-based attention method to accelerate Informer for long sequence time-series forecasting. While window attention is local and a considerable computational saving, it lacks the ability to capture global token information which is compensated by a subsequent Fourier transform block. Our method, named FWin, does not rely on query sparsity hypothesis and an empirical approximation underlying the ProbSparse attention of Informer. Through experiments on univariate and multivariate datasets, we show that FWin transformers improve the overall prediction accuracies of Informer while accelerating its inference speeds by 40 to 50 %. We also show in a nonlinear regression model that a learned FWin type attention approaches or even outperforms softmax full attention based on key vectors extracted from an Informer model's full attention layer acting on time series data.
翻訳日:2024-02-16 21:14:06 公開日:2024-02-15
# 概要因果グラフからの直接効果の同定可能性

Identifiability of Direct Effects from Summary Causal Graphs ( http://arxiv.org/abs/2306.16958v4 )

ライセンス: Link先を確認
Simon Ferreira and Charles K. Assaad(参考訳) 動的構造因果モデル(scms)は、ある変数の変更が他の変数にどのように影響するかを計測し、他の変数を定数に保ちながら直接効果について、動的システムにおいて推論するための強力なフレームワークである。 動的構造因果モデルにおける因果関係は、非巡回フルタイム因果グラフで定性的に表すことができる。 線形性と隠れた共起性を仮定し、フルタイム因果グラフを与えると、直接因果効果は常に識別可能である。 しかし、多くのアプリケーションではそのようなグラフは様々な理由で利用できないが、専門家は時系列間の因果関係を表すフルタイム因果グラフの要約因果グラフにアクセスでき、時間的情報を省略し、サイクルを可能にする。 本稿では,その直接効果が要約因果グラフからグラフィカルに識別可能なすべての事例を特徴付ける完全識別可能性結果と,その直接効果が識別可能であれば,その直接効果を推定するために使用できる2つの健全な有限調整セットを与える。

Dynamic structural causal models (SCMs) are a powerful framework for reasoning in dynamic systems about direct effects which measure how a change in one variable affects another variable while holding all other variables constant. The causal relations in a dynamic structural causal model can be qualitatively represented with an acyclic full-time causal graph. Assuming linearity and no hidden confounding and given the full-time causal graph, the direct causal effect is always identifiable. However, in many application such a graph is not available for various reasons but nevertheless experts have access to the summary causal graph of the full-time causal graph which represents causal relations between time series while omitting temporal information and allowing cycles. This paper presents a complete identifiability result which characterizes all cases for which the direct effect is graphically identifiable from a summary causal graph and gives two sound finite adjustment sets that can be used to estimate the direct effect whenever it is identifiable.
翻訳日:2024-02-16 21:13:46 公開日:2024-02-15
# 明示的制約を考慮した学習ダイナミクスのための安定化ニューラル微分方程式

Stabilized Neural Differential Equations for Learning Dynamics with Explicit Constraints ( http://arxiv.org/abs/2306.09739v3 )

ライセンス: Link先を確認
Alistair White, Niki Kilbertus, Maximilian Gelbrecht, Niklas Boers(参考訳) データから動的システムを学ぶための多くの手法が最近導入された。 しかしながら、推論力学が、保護法や許可されたシステム状態の制限といった既知の制約を確実に維持することはまだ困難である。 本稿では, 線形微分方程式に対する任意の多様体制約を強制する手法である安定化ニューラル微分方程式(SNDE)を提案する。 我々のアプローチは安定化項に基づいており、元の力学に加えると、制約多様体は漸近的に安定である。 その単純さから,本手法はすべての共通神経微分方程式(nde)モデルと適合し,広く適用可能である。 実験的な評価では、SNDEは既存の手法よりも優れており、NDEトレーニングに組み込むことができる制約の種類を広くしている。

Many successful methods to learn dynamical systems from data have recently been introduced. However, ensuring that the inferred dynamics preserve known constraints, such as conservation laws or restrictions on the allowed system states, remains challenging. We propose stabilized neural differential equations (SNDEs), a method to enforce arbitrary manifold constraints for neural differential equations. Our approach is based on a stabilization term that, when added to the original dynamics, renders the constraint manifold provably asymptotically stable. Due to its simplicity, our method is compatible with all common neural differential equation (NDE) models and broadly applicable. In extensive empirical evaluations, we demonstrate that SNDEs outperform existing methods while broadening the types of constraints that can be incorporated into NDE training.
翻訳日:2024-02-16 21:13:27 公開日:2024-02-15
# OMNI:人間の興味の表記モデルによる開放性

OMNI: Open-endedness via Models of human Notions of Interestingness ( http://arxiv.org/abs/2306.01711v3 )

ライセンス: Link先を確認
Jenny Zhang, Joel Lehman, Kenneth Stanley, Jeff Clune(参考訳) オープンエンドアルゴリズムは、新しい興味深い振る舞いを永遠に学習することを目的としている。 これには広大な環境探索スペースが必要ですが、無限に多くのタスクが存在します。 タスクをフィルタリングした後でも、現在のエージェントは学習できる(つまり、進歩を学ぶ)。 open-endedness researchのアキレス・ヒールは、学習可能なタスクだけでなく、$\textit{interesting}$(例えば、価値とノベル)を定量化(そして優先順位付け)することができないことである。 我々は、この問題を解決するために、$\textit{Open-endedness via Models of Human Notions of Interestingness}$ (OMNI)を提案する。 この知見は、ファンデーションモデル(FM)を面白さのモデル(MoI)として利用することができる、なぜなら、それらが$\textit{already}$ 人間の関心の概念を、膨大な量の人間が生成したデータのトレーニングから内部化するからである。 FMベースのMoIは学習可能な$\textit{and interesting}$にフォーカスすることでオープンエンド学習を改善し、一様タスクサンプリングや学習進捗のみに基づくベースラインよりも優れていることを示す。 このアプローチは、次にフォーカスすべきタスク(すなわちオートクラキュラ)を知的に選択する能力を劇的に向上させる可能性があり、AIが学習する次のタスクを選択することで、自己改善型のAIとAI生成アルゴリズムが促進される可能性がある。 Project website at https://www.jennyzhangzt.com/omni/

Open-ended algorithms aim to learn new, interesting behaviors forever. That requires a vast environment search space, but there are thus infinitely many possible tasks. Even after filtering for tasks the current agent can learn (i.e., learning progress), countless learnable yet uninteresting tasks remain (e.g., minor variations of previously learned tasks). An Achilles Heel of open-endedness research is the inability to quantify (and thus prioritize) tasks that are not just learnable, but also $\textit{interesting}$ (e.g., worthwhile and novel). We propose solving this problem by $\textit{Open-endedness via Models of human Notions of Interestingness}$ (OMNI). The insight is that we can utilize foundation models (FMs) as a model of interestingness (MoI), because they $\textit{already}$ internalize human concepts of interestingness from training on vast amounts of human-generated data, where humans naturally write about what they find interesting or boring. We show that FM-based MoIs improve open-ended learning by focusing on tasks that are both learnable $\textit{and interesting}$, outperforming baselines based on uniform task sampling or learning progress alone. This approach has the potential to dramatically advance the ability to intelligently select which tasks to focus on next (i.e., auto-curricula), and could be seen as AI selecting its own next task to learn, facilitating self-improving AI and AI-Generating Algorithms. Project website at https://www.jennyzhangzt.com/omni/
翻訳日:2024-02-16 21:13:14 公開日:2024-02-15
# CLIPモデルは秘密裏にプロンプトコンバータ

The CLIP Model is Secretly an Image-to-Prompt Converter ( http://arxiv.org/abs/2305.12716v2 )

ライセンス: Link先を確認
Yuxuan Ding, Chunna Tian, Haoxuan Ding, Lingqiao Liu(参考訳) 安定拡散モデル (Stable Diffusion model) は、テキストプロンプトを入力として依存する顕著なテキスト・画像生成モデルであり、Contrastive Language- Image Pre-Training (CLIP) を用いて符号化される。 しかし、テキストプロンプトは参照画像から暗黙の情報を取り入れることに関して制限がある。 既存の手法では、画像から画像への生成のために何百万ものトレーニングサンプルを含む高価なトレーニング手順を使用することで、この制限に対処しようと試みている。 対照的に,本論文では,安定拡散に利用されたクリップモデルが,画像からテキストプロンプトへの即時変換機能を有することを示す。 このような画像からプロンプトへの変換は、閉形式で計算される線形射影行列を利用することで実現できる。 さらに,本論文では,類似領域トレーニングデータ(約100画像)の少ない利用や,参照画像に複数のオンライントレーニングステップ(約30イテレーション)を組み込むことにより,この機能をさらに強化することができることを示す。 これらのアプローチを活用することで、提案手法は画像とテキストプロンプトの間のギャップを埋めるためのシンプルで柔軟なソリューションを提供する。 この方法論は、画像のばらつきや画像編集といった様々なタスクに適用でき、画像とテキストのプロンプト間のより効果的でシームレスなインタラクションを容易にする。

The Stable Diffusion model is a prominent text-to-image generation model that relies on a text prompt as its input, which is encoded using the Contrastive Language-Image Pre-Training (CLIP). However, text prompts have limitations when it comes to incorporating implicit information from reference images. Existing methods have attempted to address this limitation by employing expensive training procedures involving millions of training samples for image-to-image generation. In contrast, this paper demonstrates that the CLIP model, as utilized in Stable Diffusion, inherently possesses the ability to instantaneously convert images into text prompts. Such an image-to-prompt conversion can be achieved by utilizing a linear projection matrix that is calculated in a closed form. Moreover, the paper showcases that this capability can be further enhanced by either utilizing a small amount of similar-domain training data (approximately 100 images) or incorporating several online training steps (around 30 iterations) on the reference images. By leveraging these approaches, the proposed method offers a simple and flexible solution to bridge the gap between images and text prompts. This methodology can be applied to various tasks such as image variation and image editing, facilitating more effective and seamless interaction between images and textual prompts.
翻訳日:2024-02-16 21:12:43 公開日:2024-02-15
# GINN-LP:多変量ローラン多項式方程式の探索のための成長する解釈可能なニューラルネットワーク

GINN-LP: A Growing Interpretable Neural Network for Discovering Multivariate Laurent Polynomial Equations ( http://arxiv.org/abs/2312.10913v2 )

ライセンス: Link先を確認
Nisal Ranasinghe, Damith Senanayake, Sachith Seneviratne, Malin Premaratne, Saman Halgamuge(参考訳) 従来の機械学習は一般にブラックボックス最適化問題として扱われ、通常、入力と出力を繋ぐ解釈可能な関数を生成しない。 しかし、そのような解釈可能な関数を発見する能力は望ましい。 本研究では,この方程式が多変量ローレント多項式の形をとると仮定された場合,データセットの基底方程式の形式と係数を解釈可能なニューラルネットワークであるGINN-LPを提案する。 これは、対数的および指数的活性化関数からなる「パワーターム近似ブロック」と呼ばれる新しいタイプの解釈可能なニューラルネットワークブロックによって促進される。 GINN-LPはエンドツーエンドの差別化が可能で、トレーニングにバックプロパゲーションを使用することができる。 本研究では,データを表すローラン多項式の適切な項数を見つけることを可能にするニューラルネットワーク成長戦略と,簡潔な方程式の発見を促進するスパーシティ正規化を提案する。 我々の知る限りでは、これは順序に関する事前情報なしで任意の多変量ローラン多項式項を発見できる最初のモデルである。 このアプローチはまず,シンボリック回帰のベンチマークであるsrbenchで使用されるデータのサブセット上で評価する。 GINN-LPは,48個の実世界の方程式を多変量ローレント多項式の形で生成したデータセットに対して,最先端の記号回帰法より優れることを示す。 次に,本手法を高性能な記号回帰法と組み合わせたアンサンブル法を提案し,非ローラン多項式方程式の発見を可能にする。 このアンサンブル法をSRBench内の113個のデータセットに適用し, 既知の接地トラス方程式を用いて, 絶対的な7.1%の精度向上を図った。

Traditional machine learning is generally treated as a black-box optimization problem and does not typically produce interpretable functions that connect inputs and outputs. However, the ability to discover such interpretable functions is desirable. In this work, we propose GINN-LP, an interpretable neural network to discover the form and coefficients of the underlying equation of a dataset, when the equation is assumed to take the form of a multivariate Laurent Polynomial. This is facilitated by a new type of interpretable neural network block, named the "power-term approximator block", consisting of logarithmic and exponential activation functions. GINN-LP is end-to-end differentiable, making it possible to use backpropagation for training. We propose a neural network growth strategy that will enable finding the suitable number of terms in the Laurent polynomial that represents the data, along with sparsity regularization to promote the discovery of concise equations. To the best of our knowledge, this is the first model that can discover arbitrary multivariate Laurent polynomial terms without any prior information on the order. Our approach is first evaluated on a subset of data used in SRBench, a benchmark for symbolic regression. We first show that GINN-LP outperforms the state-of-the-art symbolic regression methods on datasets generated using 48 real-world equations in the form of multivariate Laurent polynomials. Next, we propose an ensemble method that combines our method with a high-performing symbolic regression method, enabling us to discover non-Laurent polynomial equations. We achieve state-of-the-art results in equation discovery, showing an absolute improvement of 7.1% over the best contender, by applying this ensemble method to 113 datasets within SRBench with known ground-truth equations.
翻訳日:2024-02-16 21:05:10 公開日:2024-02-15
# VLAP:ビデオ質問応答のためのフレームプロンプティングと蒸留による効率的なビデオ言語アライメント

VLAP: Efficient Video-Language Alignment via Frame Prompting and Distilling for Video Question Answering ( http://arxiv.org/abs/2312.08367v2 )

ライセンス: Link先を確認
Xijun Wang, Junbang Liang, Chun-Kai Wang, Kenan Deng, Yu Lou, Ming Lin, Shan Yang(参考訳) 本稿では,vlap(frame-prompting and distilling)ネットワークを用いた効率的な映像言語アライメントを提案する。 我々のVLAPモデルは、効率的なフレームサンプリングと効果的なクロスモーダルアライメントの両方を統一的に処理する。 VLAPネットワークでは,学習可能な新しいフレームプロンプタと,新しいクロスモーダル蒸留(QFormer-Distiller)モジュールを設計する。 事前訓練された大規模画像言語モデルは、視覚的質問応答のような問題に対して有望な結果を示した。 しかし,ビデオ言語アライメントに事前学習した大規模画像言語モデルを適応させる場合,画像フレームを効率的に効率的にサンプリングする方法が大きな課題である。 従来の作業と比較して,VLAPモデルは重要な内容を持つキーフレームを選択する能力を示し,推論遅延を低減し,映像のアライメント精度を向上する(NExT-QAのテンポラルでは3倍の速度で+3.3%)。 全体として、VLAPネットワークは、STARインタラクションでは+4.6%、STAR平均では+2.2%、VLEPではSeViLA 4フレームでは4.2倍、VLEPではSeViLA 4フレームでは4.2倍)、ビデオ質問応答ベンチマークでは最先端の手法よりも優れています。

In this work, we propose an efficient Video-Language Alignment via Frame-Prompting and Distilling (VLAP) network. Our VLAP model addresses both efficient frame sampling and effective cross-modal alignment in a unified way. In our VLAP network, we design a new learnable question-aware Frame-Prompter together with a new cross-modal distillation (QFormer-Distiller) module. Pre-trained large image-language models have shown promising results on problems such as visual question answering. However, how to efficiently and effectively sample image frames when adapting pre-trained large image-language model to video-language alignment is still the major challenge. Compared with prior work, our VLAP model demonstrates the capability of selecting key frames with critical contents, thus improving the video-language alignment accuracy while reducing the inference latency (+3.3% on NExT-QA Temporal with 3.0X speed up). Overall, our VLAP network outperforms (e.g. +4.6% on STAR Interaction and +2.2% on STAR average with 3.0X speed up, ours 2-frames out-perform SeViLA 4-frames on VLEP with 4.2X speed up) the state-of-the-art methods on the video question-answering benchmarks.
翻訳日:2024-02-16 21:04:20 公開日:2024-02-15
# 視覚基礎モデルからの知識伝達による小型タスク特化モデルの効率的な学習

Knowledge Transfer from Vision Foundation Models for Efficient Training of Small Task-specific Models ( http://arxiv.org/abs/2311.18237v2 )

ライセンス: Link先を確認
Raviteja Vemulapalli, Hadi Pouransari, Fartash Faghri, Sachin Mehta, Mehrdad Farajtabar, Mohammad Rastegari, Oncel Tuzel(参考訳) 大規模なデータセットに事前訓練されたビジョンファウンデーションモデル(VFM)は、特にラベル付きターゲットデータに制限のある、さまざまな下流タスクで素晴らしいパフォーマンスを示す。 しかし、高い推論計算コストのため、これらのモデルは現実世界の多くのアプリケーションにデプロイすることはできない。 そこで我々は,「大規模VFMからの知識を利用して,限定ラベル付きトレーニングデータを用いた目標タスクの小さなタスク特化モデルをトレーニングするにはどうすればよいのか?」という重要な疑問を提起し,この問題に対して,簡単なタスク指向知識伝達アプローチを提案する。 5つの課題を対象とした実験の結果,提案手法はタスク非依存のVFM蒸留,WebスケールのCLIPプレトレーニング,イメージネットプレトレーニング,DINOプレトレーニングを最大11.6%,22.1%,13.7%,29.8%で上回った。 さらに,提案手法は,タスクに依存しないvfm蒸留,imagenetプリトレーニング,dinoプリトレーニングと比較して,最大9倍,4倍,15倍のプリトレーニング計算コスト削減効果を示す。 また,知識伝達に使用するデータセットが最終目標タスク性能に有意な影響を与えることを示し,webスケール画像検索を有効転送セットのキュレーションに用いた検索型知識転送戦略を導入する。

Vision Foundation Models (VFMs) pretrained on massive datasets exhibit impressive performance on various downstream tasks, especially with limited labeled target data. However, due to their high inference compute cost, these models cannot be deployed for many real-world applications. Motivated by this, we ask the following important question, "How can we leverage the knowledge from a large VFM to train a small task-specific model for a new target task with limited labeled training data?", and propose a simple task-oriented knowledge transfer approach as a highly effective solution to this problem. Our experimental results on five target tasks show that the proposed approach outperforms task-agnostic VFM distillation, web-scale CLIP pretraining, supervised ImageNet pretraining, and self-supervised DINO pretraining by up to 11.6%, 22.1%, 13.7%, and 29.8%, respectively. Furthermore, the proposed approach also demonstrates up to 9x, 4x and 15x reduction in pretraining compute cost when compared to task-agnostic VFM distillation, ImageNet pretraining and DINO pretraining, respectively, while outperforming them. We also show that the dataset used for transferring knowledge has a significant effect on the final target task performance, and introduce a retrieval-augmented knowledge transfer strategy that uses web-scale image retrieval to curate effective transfer sets.
翻訳日:2024-02-16 21:03:30 公開日:2024-02-15
# autarch: 考古学カタログのオブジェクト検出と自動記録のためのai支援ワークフロー

AutArch: An AI-assisted workflow for object detection and automated recording in archaeological catalogues ( http://arxiv.org/abs/2311.17978v2 )

ライセンス: Link先を確認
Kevin Klein, Alyssa Wohde, Alexander V. Gorelik, Volker Heyd, Ralf L\"ammel, Yoan Diekmann, Maxime Brami(参考訳) この論文のコンテキストは、AIとビッグデータの助けを借りて、検索カタログなどの異種資源から、大きな均一な考古学的データセットを作成することである。 この論文は、考古学的データの一貫した集合の挑戦に関するものである。 品質や記録基準の点で異なるため、既存の記録を単純に組み合わせることはできません。 そのため、考古学的な図面から記録を再現する必要がある。 これは自動化の助けを借りて実行可能な道です。 本論文の貢献は、考古学的図面や写真などの古資料として利用可能な考古学的発見カタログからのデータを収集するための新しいワークフローである。このワークフローは、画像処理、オブジェクト検出、自動検索データの検証と調整のインタラクティブな手段をサポートするカスタムソフトウェア(autarch)に依存している。 人工知能(AI)は、オブジェクトの検出と分類のためのニューラルネットワークをワークフローに統合することで、データ収集のスピードアップ、自動化、標準化を可能にします。 墓、骨格、陶器、装飾品、石器、地図など、考古学のカタログによく見られる物が検出されている。 これらの物体は空間的に関連しており、北矢印や規模に基づく墓の大きさや方位などの実生活特性を抽出するために分析されている。 また,ランドマークに基づく幾何学的形態計測の代替として,輪郭検出による幾何学的アウトラインの記録を自動化した。 検出されたオブジェクト、輪郭、その他の自動検索されたデータは手動で検証および調整することができる。 紀元前3千年紀のヨーロッパ(「腐食した陶器」や「ベル・ビーカー」などの文化を包含する)を「試験場」として、評価目的に使用し、ワークフローや自閉症ソフトウェアに関するユーザスタディを含む。

The context of this paper is the creation of large uniform archaeological datasets from heterogeneous published resources, such as find catalogues - with the help of AI and Big Data. The paper is concerned with the challenge of consistent assemblages of archaeological data. We cannot simply combine existing records, as they differ in terms of quality and recording standards. Thus, records have to be recreated from published archaeological illustrations. This is only a viable path with the help of automation. The contribution of this paper is a new workflow for collecting data from archaeological find catalogues available as legacy resources, such as archaeological drawings and photographs in large unsorted PDF files; the workflow relies on custom software (AutArch) supporting image processing, object detection, and interactive means of validating and adjusting automatically retrieved data. We integrate artificial intelligence (AI) in terms of neural networks for object detection and classification into the workflow, thereby speeding up, automating, and standardising data collection. Objects commonly found in archaeological catalogues - such as graves, skeletons, ceramics, ornaments, stone tools and maps - are detected. Those objects are spatially related and analysed to extract real-life attributes, such as the size and orientation of graves based on the north arrow and the scale. We also automate recording of geometric whole-outlines through contour detection, as an alternative to landmark-based geometric morphometrics. Detected objects, contours, and other automatically retrieved data can be manually validated and adjusted. We use third millennium BC Europe (encompassing cultures such as 'Corded Ware' and 'Bell Beaker', and their burial practices) as a 'testing ground' and for evaluation purposes; this includes a user study for the workflow and the AutArch software.
翻訳日:2024-02-16 21:03:02 公開日:2024-02-15
# 眼球追跡データにおける垂直ドリフト補正のためのデュアル入力ストリームトランス

Dual input stream transformer for vertical drift correction in eye-tracking reading data ( http://arxiv.org/abs/2311.06095v2 )

ライセンス: Link先を確認
Thomas M. Mercier, Marcin Budka, Martin R. Vasilev, Julie A. Kirkby, Bernhard Angele, Timothy J. Slattery(参考訳) 本稿では,読解中に収集した視線追跡データから,実際に注目されていたテキスト行に固定点を割り当てるという問題に対して,新しいDist(Dual Input Stream Transformer)を導入する。 この後処理ステップは, 垂直ドリフト形態における雑音の存在から, 読み出しデータの解析に不可欠である。 我々は、9つの多様なデータセットからなる包括的スイートにおいて、11の古典的アプローチに対してDISTを評価する。 我々は,DISTモデルの複数のインスタンスをアンサンブルに組み合わせることで,すべてのデータセットに対して高い精度が得られることを示した。 さらにDISTアンサンブルと最高の古典的アプローチを組み合わせると、平均精度は98.17 %となる。 本手法は,読解研究における手作業ライン割り当てのボトルネックに対処するための重要なステップを示す。 DIST の成功に寄与する重要な要因は, ラインオーバーラップ機能の導入や第2入力ストリームの使用などである。 厳密な評価により、DISTは様々な実験装置に対して堅牢であることを示し、この分野の実践者にとって安全な第1選択となる。

We introduce a novel Dual Input Stream Transformer (DIST) for the challenging problem of assigning fixation points from eye-tracking data collected during passage reading to the line of text that the reader was actually focused on. This post-processing step is crucial for analysis of the reading data due to the presence of noise in the form of vertical drift. We evaluate DIST against eleven classical approaches on a comprehensive suite of nine diverse datasets. We demonstrate that combining multiple instances of the DIST model in an ensemble achieves high accuracy across all datasets. Further combining the DIST ensemble with the best classical approach yields an average accuracy of 98.17 %. Our approach presents a significant step towards addressing the bottleneck of manual line assignment in reading research. Through extensive analysis and ablation studies, we identify key factors that contribute to DIST's success, including the incorporation of line overlap features and the use of a second input stream. Via rigorous evaluation, we demonstrate that DIST is robust to various experimental setups, making it a safe first choice for practitioners in the field.
翻訳日:2024-02-16 21:02:30 公開日:2024-02-15
# ストリーミング時系列セグメンテーションのクラスを上げる

Raising the ClaSS of Streaming Time Series Segmentation ( http://arxiv.org/abs/2310.20431v2 )

ライセンス: Link先を確認
Arik Ermshaus, Patrick Sch\"afer, Ulf Leser(参考訳) 今日、ユビキタスセンサーは、人間、動物、工業、商業、および自然の過程の特性を反映する数値測定の高周波ストリームを出力している。 このようなプロセスの変化、例えば外部イベントや内部状態の変化は、記録された信号の変化として現れます。 ストリーミング時系列セグメンテーション(STSS)のタスクは、ストリームを観測されたプロセスやエンティティの状態に対応する連続的な可変サイズのセグメントに分割することである。 分割操作自体の性能は信号の入力周波数に対処できなければならない。 本稿では,新しい,効率的かつ高精度なSTSSアルゴリズムであるClaSSを紹介する。 ClaSSは、自己教師付き時系列分類を用いて電位分割の均一性を評価し、統計的テストを適用して重要な変化点(CP)を検出する。 2つの大規模なベンチマークと6つの実世界のデータアーカイブを用いた実験の結果、ClaSSは8つの最先端の競合よりはるかに正確であることが判明した。 その空間と時間の複雑さはセグメントサイズに依存し、スライディングウィンドウサイズのみに線形である。 また、Apache Flinkストリーミングエンジンでは、平均スループットが毎秒1Kのデータポイントを持つウィンドウオペレータとしてClaSSを提供しています。

Ubiquitous sensors today emit high frequency streams of numerical measurements that reflect properties of human, animal, industrial, commercial, and natural processes. Shifts in such processes, e.g. caused by external events or internal state changes, manifest as changes in the recorded signals. The task of streaming time series segmentation (STSS) is to partition the stream into consecutive variable-sized segments that correspond to states of the observed processes or entities. The partition operation itself must in performance be able to cope with the input frequency of the signals. We introduce ClaSS, a novel, efficient, and highly accurate algorithm for STSS. ClaSS assesses the homogeneity of potential partitions using self-supervised time series classification and applies statistical tests to detect significant change points (CPs). In our experimental evaluation using two large benchmarks and six real-world data archives, we found ClaSS to be significantly more precise than eight state-of-the-art competitors. Its space and time complexity is independent of segment sizes and linear only in the sliding window size. We also provide ClaSS as a window operator with an average throughput of 1k data points per second for the Apache Flink streaming engine.
翻訳日:2024-02-16 21:02:14 公開日:2024-02-15
# 医用画像解析のためのドメイン一般化:調査

Domain Generalization for Medical Image Analysis: A Survey ( http://arxiv.org/abs/2310.08598v2 )

ライセンス: Link先を確認
Jee Seok Yoon, Kwanseok Oh, Yooseung Shin, Maciej A. Mazurowski, Heung-Il Suk(参考訳) 医用画像解析(MedIA)は, 疾患診断, 予後, 治療計画を支援する医療・医療において重要なツールとなり, 近年の深層学習(DL)の成功は, その進歩に大きく貢献している。 しかし、MedIAのDLモデルを現実の状況にデプロイすることは、トレーニングとテストサンプルの分散ギャップをまたいで一般化できないため、依然として困難である。 研究者は、未知の分散データ分布に頑健に適応し、実行するための様々なdl手法の開発に尽力している。 本稿では,MedIAに適した領域一般化研究を包括的にレビューする。 我々は,ドメインの一般化技術がより広範なMedIAシステム内でどのように作用するかを概観し,MedIAワークフロー全体の運用上の意味を考察する方法論を超えて検討する。 具体的には,ドメイン一般化手法をデータレベル,特徴レベル,モデルレベル,分析レベルに分類する。 本稿では,これらの手法がデータ取得とモデル予測と解析のためのDLを備えたMedIAワークフローの様々な段階でどのように使用できるかを示す。 さらに,様々な手法の強みと弱みを批判的に分析し,今後の研究機会を明らかにする。

Medical image analysis (MedIA) has become an essential tool in medicine and healthcare, aiding in disease diagnosis, prognosis, and treatment planning, and recent successes in deep learning (DL) have made significant contributions to its advances. However, deploying DL models for MedIA in real-world situations remains challenging due to their failure to generalize across the distributional gap between training and testing samples - a problem known as domain shift. Researchers have dedicated their efforts to developing various DL methods to adapt and perform robustly on unknown and out-of-distribution data distributions. This paper comprehensively reviews domain generalization studies specifically tailored for MedIA. We provide a holistic view of how domain generalization techniques interact within the broader MedIA system, going beyond methodologies to consider the operational implications on the entire MedIA workflow. Specifically, we categorize domain generalization methods into data-level, feature-level, model-level, and analysis-level methods. We show how those methods can be used in various stages of the MedIA workflow with DL equipped from data acquisition to model prediction and analysis. Furthermore, we critically analyze the strengths and weaknesses of various methods, unveiling future research opportunities.
翻訳日:2024-02-16 21:01:36 公開日:2024-02-15
# 拡散モデルにおける再現性と一貫性の出現

The Emergence of Reproducibility and Consistency in Diffusion Models ( http://arxiv.org/abs/2310.05264v2 )

ライセンス: Link先を確認
Huijie Zhang, Jinfan Zhou, Yifu Lu, Minzhe Guo, Peng Wang, Liyue Shen, Qing Qu(参考訳) そこで本研究では,同一の開始雑音入力と決定論的サンプラーが与えられると,異なる拡散モデルが著しく類似した出力を生成するという,拡散モデルの興味深く,広く普及する現象について検討する。 拡散モデルフレームワークやモデルアーキテクチャ、トレーニング手順に関わらず、異なる拡散モデルが一貫して同じデータ分布とスコアリング関数に達することを示唆し、包括的な実験を通じてこの現象を確認した。 さらに注目すべきは、拡散モデルがトレーニングデータサイズの影響を受けやすい分布を学習していることである。 これは、モデル再現性が2つの異なる訓練体制に現れるという事実に支えられている。 (i)拡散モデルがトレーニングデータ分布に過剰に適合する「記憶レジーム」、及び (2)モデルが基礎となるデータ分布を学習する「一般化体制」。 また, この性質は, 条件付き使用, 逆問題解決, モデル微調整など, 拡散モデルの多くの変種に一般化されることが示唆された。 最後に,我々の研究は,今後の研究に多くの興味深い理論的疑問を提起し,トレーニング効率,モデルプライバシ,拡散モデルの生成制御に関する実践的意義を強調する。

In this work, we investigate an intriguing and prevalent phenomenon of diffusion models which we term as "consistent model reproducibility": given the same starting noise input and a deterministic sampler, different diffusion models often yield remarkably similar outputs. We confirm this phenomenon through comprehensive experiments, implying that different diffusion models consistently reach the same data distribution and scoring function regardless of diffusion model frameworks, model architectures, or training procedures. More strikingly, our further investigation implies that diffusion models are learning distinct distributions affected by the training data size. This is supported by the fact that the model reproducibility manifests in two distinct training regimes: (i) "memorization regime", where the diffusion model overfits to the training data distribution, and (ii) "generalization regime", where the model learns the underlying data distribution. Our study also finds that this valuable property generalizes to many variants of diffusion models, including those for conditional use, solving inverse problems, and model fine-tuning. Finally, our work raises numerous intriguing theoretical questions for future investigation and highlights practical implications regarding training efficiency, model privacy, and the controlled generation of diffusion models.
翻訳日:2024-02-16 21:01:17 公開日:2024-02-15
# 生成軌道モデリングによる階層的環境設計の強化

Enhancing the Hierarchical Environment Design via Generative Trajectory Modeling ( http://arxiv.org/abs/2310.00301v2 )

ライセンス: Link先を確認
Dexun Li, Pradeep Varakantham(参考訳) Unsupervised Environment Design (UED) は、訓練環境のカリキュラムを自動生成するパラダイムであり、これらの環境で訓練されたエージェントが一般的な能力、すなわちゼロショット転送性能を向上することを可能にする。 しかし、既存のUEDアプローチは主にオープンエンドエージェントトレーニングのためのランダムな環境の生成に焦点を当てている。 これは、生成した環境の数に対する制約など、リソースが限られているシナリオでは非現実的です。 本稿では,資源制約下での環境設計のための階層型MDPフレームワークを提案する。 低レベルの学生エージェントに適した訓練環境を生成する上位レベルのRL教師エージェントで構成されている。 rl教師は、学生の政策の表象を観察することで、以前に発見された環境構造を活用し、学生の能力のフロンティアにおける環境を生成することができる。 さらに,高位教員の経験の収集に要する時間を削減するため,生成モデリングの最近の進歩を利用して,教師エージェントを訓練するための軌道データセットを合成する。 提案手法は,エージェントと環境間のリソース集約的な相互作用を著しく低減し,様々な領域で実験を行い,提案手法の有効性を実証する。

Unsupervised Environment Design (UED) is a paradigm for automatically generating a curriculum of training environments, enabling agents trained in these environments to develop general capabilities, i.e., achieving good zero-shot transfer performance. However, existing UED approaches focus primarily on the random generation of environments for open-ended agent training. This is impractical in scenarios with limited resources, such as the constraints on the number of generated environments. In this paper, we introduce a hierarchical MDP framework for environment design under resource constraints. It consists of an upper-level RL teacher agent that generates suitable training environments for a lower-level student agent. The RL teacher can leverage previously discovered environment structures and generate environments at the frontier of the student's capabilities by observing the student policy's representation. Moreover, to reduce the time-consuming collection of experiences for the upper-level teacher, we utilize recent advances in generative modeling to synthesize a trajectory dataset to train the teacher agent. Our proposed method significantly reduces the resource-intensive interactions between agents and environments and empirical experiments across various domains demonstrate the effectiveness of our approach.
翻訳日:2024-02-16 21:00:56 公開日:2024-02-15
# 2-cats:変換を近似する2次元copula

2-Cats: 2D Copula Approximating Transforms ( http://arxiv.org/abs/2309.16391v2 )

ライセンス: Link先を確認
Flavio Figueiredo, Jos\'e Geraldo Fernandes, Jackson Silva, Renato M. Assun\c{c}\~ao(参考訳) copulasは、複数のデータ次元にわたる依存関係をキャプチャする強力な統計ツールである。 コプラを適用するには、独立したマージンの推定、単純なタスク、そして、これらのマージンをリンクする単一のコピュレーション関数である$c$を決定するという、はるかに困難なタスクが含まれる。 二変量データに対して、copula は 2-拡大関数 $c の形を取る: (u,v)\in \mathbb{i}^2 \rightarrow \mathbb{i}$, ここで $\mathbb{i} = [0, 1]$ である。 本稿では,特定のコプラ族(アルキメデスなど)に頼らず,その重要な性質を維持しながら二次元コプラを学習するニューラル・ネットワーク(nn)モデルである2-catsを提案する。 さらに,物理インフォームドニューラルネットワークとソボレフトレーニングに関する文献から着想を得たトレーニング戦略を導入する。 提案手法は,copulaの基本数学的性質を維持しつつ,様々なデータセットにおける最先端技術と比較して優れた性能を示す。

Copulas are powerful statistical tools for capturing dependencies across multiple data dimensions. Applying Copulas involves estimating independent marginals, a straightforward task, followed by the much more challenging task of determining a single copulating function, $C$, that links these marginals. For bivariate data, a copula takes the form of a two-increasing function $C: (u,v)\in \mathbb{I}^2 \rightarrow \mathbb{I}$, where $\mathbb{I} = [0, 1]$. In this paper, we propose 2-Cats, a Neural Network (NN) model that learns two-dimensional Copulas while preserving their key properties, without relying on specific Copula families (e.g., Archimedean). Furthermore, we introduce a training strategy inspired by the literature on Physics-Informed Neural Networks and Sobolev Training. Our proposed method exhibits superior performance compared to the state-of-the-art across various datasets while maintaining the fundamental mathematical properties of a Copula.
翻訳日:2024-02-16 21:00:12 公開日:2024-02-15
# ニューラルネットワークの大規模バッチトレーニング一般化のためのlarsの再訪

Revisiting LARS for Large Batch Training Generalization of Neural Networks ( http://arxiv.org/abs/2309.14053v4 )

ライセンス: Link先を確認
Khoi Do, Duong Nguyen, Hoa Nguyen, Long Tran-Thanh, Nguyen-Hoang Tran, and Quoc-Viet Pham(参考訳) 本稿では,階層型適応スケーリング比(lars)を用いた大規模バッチトレーニング手法について検討し,知見を明らかにする。 ウォームアップを伴うLARSアルゴリズムは、冗長比のスケーリングのため、早期にシャープな最小化器に閉じ込められる傾向にある。 さらに、後者のフェーズの急激な低下により、ディープニューラルネットワークは、アーリーフェーズの鋭い最小化器を効果的にナビゲートすることを制限している。 これらの結果に基づき,初期段階におけるロバストトレーニングのために,ウォームアップを構成可能なシグモイド様関数に置き換える新しいアルゴリズムであるtime varying lars (tvlars)を提案する。 TVLARSは勾配探索を早期に促進し、急激な最適化器を超え、後段の堅牢性のために徐々にLARSに移行する。 広範囲な実験により、TVLARSはLARSとLAMBを一貫して上回り、分類シナリオは最大で2倍改善されている。 特に, 自己指導型学習では, LARS と LAMB が支配的であり, 性能は最大 10 % 向上した。

This paper explores Large Batch Training techniques using layer-wise adaptive scaling ratio (LARS) across diverse settings, uncovering insights. LARS algorithms with warm-up tend to be trapped in sharp minimizers early on due to redundant ratio scaling. Additionally, a fixed steep decline in the latter phase restricts deep neural networks from effectively navigating early-phase sharp minimizers. Building on these findings, we propose Time Varying LARS (TVLARS), a novel algorithm that replaces warm-up with a configurable sigmoid-like function for robust training in the initial phase. TVLARS promotes gradient exploration early on, surpassing sharp optimizers and gradually transitioning to LARS for robustness in later phases. Extensive experiments demonstrate that TVLARS consistently outperforms LARS and LAMB in most cases, with up to 2\% improvement in classification scenarios. Notably, in all self-supervised learning cases, TVLARS dominates LARS and LAMB with performance improvements of up to 10\%.
翻訳日:2024-02-16 20:59:50 公開日:2024-02-15
# CodeAgent: ソフトウェアエンジニアリングのためのコラボレーションエージェント

CodeAgent: Collaborative Agents for Software Engineering ( http://arxiv.org/abs/2402.02172v3 )

ライセンス: Link先を確認
Daniel Tang and Zhenghan Chen and Kisub Kim and Yewei Song and Haoye Tian and Saad Ezzini and Yongfeng Huang and Jacques Klein and Tegawende F. Bissyande(参考訳) コードレビューは協調的なプロセスであり、ソフトウェアの全体的な品質と信頼性を保証することを目的としています。 これは大きなメリットを提供するが、組織におけるコードレビューの実装は、自動化をアピールするいくつかの課題に直面している。 自動化されたコードレビューツールが開発されてからしばらく経ち、新しいaiモデルの採用によって改善されている。 残念なことに、既存のメソッドは不足している。彼らはしばしば単一の入出力生成モデルをターゲットにしており、様々な視点を考慮したコードレビューのコラボレーションインタラクションをシミュレートできない。 本稿では,コードレビューのための新しいマルチエージェントシステムであるCodeAgentを導入することにより,コードレビュー自動化の最先端技術について述べる。 基本的に、CodeAgentはQA-Checker("Question-Answer Checking"の略)によって運営されている。 codeagentは自律的で、マルチエージェントで、大きな言語モデル駆動です。 コードエージェントの有効性を実証するために,様々なタスクにおいてその能力を評価する実験を行った。 1)コード変更とコミットメッセージの不一致の検出。 2【コミットによる脆弱性導入の検出】 3) コードスタイルの遵守の検証。 私たちのウェブサイトは \url{https://code-agent-new.vercel.app/index.html} でアクセスできます。

Code review is a heavily collaborative process, which aims at ensuring the overall quality and reliability of software. While it provides massive benefits, the implementation of code review in an organization faces several challenges that make its automation appealing. Automated code review tools have been around for a while and are now improving thanks to the adoption of novel AI models, which help can learn about standard practices and systematically check that the reviewed code adheres to them. Unfortunately, existing methods fall short: they often target a single input-output generative model, which cannot simulate the collaboration interactions in code review to account for various perspectives; they are also sub-performing on various critical code review sub-tasks. In this paper, we advance the state of the art in code review automation by introducing CodeAgent, a novel multi-agent-based system for code review. Fundamentally, CodeAgent is steered by QA-Checker (short for "Question-Answer Checking"), a supervision agent, designed specifically to ensure that all agents' contributions remain relevant to the initial review question. CodeAgent is autonomous, multi-agent, and Large language model-driven. To demonstrate the effectiveness of CodeAgent, we performed experiments to assess its capabilities in various tasks including 1) detection of inconsistencies between code changes and commit messages, 2) detection of vulnerability introduction by commits, and 3) validation of adherence to code style. Our website is accessed in \url{https://code-agent-new.vercel.app/index.html}.
翻訳日:2024-02-16 20:53:26 公開日:2024-02-15
# GaMeS: メッシュベースのガウススティングの適応と修正

GaMeS: Mesh-Based Adapting and Modification of Gaussian Splatting ( http://arxiv.org/abs/2402.01459v3 )

ライセンス: Link先を確認
Joanna Waczy\'nska, Piotr Borycki, S{\l}awomir Tadeja, Jacek Tabor, Przemys{\l}aw Spurek(参考訳) 近年,画像レンダリングのためのニューラルネットワークに基づく手法が数多く導入されている。 このような広く研究されている神経放射場(NeRF)は、3Dシーンを表現するニューラルネットワークに依存しており、少数の2D画像から現実的なビュー合成を可能にする。 しかし、ほとんどのNeRFモデルは長いトレーニングと推論時間によって制約される。 対照的に、Gaussian Splatting(GS)は、ガウス分布を通して画像画素への寄与を近似し、高速なトレーニングと高速なリアルタイムレンダリングを保証することによって、3Dシーンのポイントをレンダリングする新しい最先端技術である。 GSの欠点は、数十万のガウス成分を条件付けする必要があるため、その条件付けに対する明確なアプローチが存在しないことである。 これを解決するために,ガウスメッシュスプレート(ゲーム)モデルを導入し,メッシュと同じような方法でガウスコンポーネントの修正を可能にする。 メッシュ面の頂点によって各ガウス成分をパラメータ化する。 さらに、トレーニング中に入力または推定メッシュのメッシュ初期化も必要となる。 また,メッシュ上の位置のみに基づいてガウスプレートを定義し,アニメーション中の位置,スケール,回転の自動調整を可能にした。 その結果,編集可能なGSのリアルタイムレンダリングが得られた。

Recently, a range of neural network-based methods for image rendering have been introduced. One such widely-researched neural radiance field (NeRF) relies on a neural network to represent 3D scenes, allowing for realistic view synthesis from a small number of 2D images. However, most NeRF models are constrained by long training and inference times. In comparison, Gaussian Splatting (GS) is a novel, state-of-the-art technique for rendering points in a 3D scene by approximating their contribution to image pixels through Gaussian distributions, warranting fast training and swift, real-time rendering. A drawback of GS is the absence of a well-defined approach for its conditioning due to the necessity to condition several hundred thousand Gaussian components. To solve this, we introduce the Gaussian Mesh Splatting (GaMeS) model, which allows modification of Gaussian components in a similar way as meshes. We parameterize each Gaussian component by the vertices of the mesh face. Furthermore, our model needs mesh initialization on input or estimated mesh during training. We also define Gaussian splats solely based on their location on the mesh, allowing for automatic adjustments in position, scale, and rotation during animation. As a result, we obtain a real-time rendering of editable GS.
翻訳日:2024-02-16 20:53:02 公開日:2024-02-15
# どんな変化でも

Segment Any Change ( http://arxiv.org/abs/2402.01188v2 )

ライセンス: Link先を確認
Zhuo Zheng, Yanfei Zhong, Liangpei Zhang, Stefano Ermon(参考訳) 視覚基礎モデルはゼロショット画像分類とセグメンテーションにおいて顕著な結果を得たが、ゼロショット変化検出は依然として未解決の問題である。 本稿では,ゼロショット予測と無意味な変更タイプとデータ分布の一般化をサポートする,新しいタイプの変更検出モデルであるsegment any change model (anychange)を提案する。 AnyChangeは、トレーニング不要適応法、バイテンポラルラテントマッチングを通じてSAM(Se segment Any Model)上に構築されます。 SAMの潜伏空間における画像内および画像間のセマンティックな類似性を明らかにすることによって、バイテンポラルラテントマッチングはSAMにゼロショット変化検出機能を持たせる。 また,anychangeのゼロショットオブジェクト中心の変更検出機能を実現する点問合せ機構を提案する。 ゼロショット変化検出におけるanychangeの有効性を確認するために,広範な実験を行った。 AnyChangeは、教師なしの変更検出のためのSECONDベンチマークに新しいレコードをセットし、以前のSOTAを4.4% F$_1$スコアで上回り、教師付き変更検出のための無視可能な手動アノテーション(画像毎の1ピクセル)で同等の精度を達成する。

Visual foundation models have achieved remarkable results in zero-shot image classification and segmentation, but zero-shot change detection remains an open problem. In this paper, we propose the segment any change models (AnyChange), a new type of change detection model that supports zero-shot prediction and generalization on unseen change types and data distributions. AnyChange is built on the segment anything model (SAM) via our training-free adaptation method, bitemporal latent matching. By revealing and exploiting intra-image and inter-image semantic similarities in SAM's latent space, bitemporal latent matching endows SAM with zero-shot change detection capabilities in a training-free way. We also propose a point query mechanism to enable AnyChange's zero-shot object-centric change detection capability. We perform extensive experiments to confirm the effectiveness of AnyChange for zero-shot change detection. AnyChange sets a new record on the SECOND benchmark for unsupervised change detection, exceeding the previous SOTA by up to 4.4% F$_1$ score, and achieving comparable accuracy with negligible manual annotations (1 pixel per image) for supervised change detection.
翻訳日:2024-02-16 20:52:42 公開日:2024-02-15
# adversarial quantum machine learning: 情報理論一般化分析

Adversarial Quantum Machine Learning: An Information-Theoretic Generalization Analysis ( http://arxiv.org/abs/2402.00176v2 )

ライセンス: Link先を確認
Petros Georgiou, Sharu Theresa Jose and Osvaldo Simeone(参考訳) 従来のものと類似した方法では、量子分類器は入力を乱す敵の攻撃に対して脆弱である。 有望な対策は、攻撃認識(attack-aware)、あるいは敵対的損失関数を採用して量子分類器を訓練することである。 本稿では,有界ノルムホワイトボックス攻撃に対して相反的に訓練された量子分類器の一般化特性について検討する。 具体的には、量子敵は入力状態 $\rho(x)$ を元の状態 $\rho(x)$ in $p$-Schatten 距離に $\epsilon$-close である状態 $\lambda$ に変換することで、分類器の損失を最大化する。 量子埋め込み $\rho(x)$ の適切な仮定の下で、$p = 1$ および $p = \infty$ の逆訓練量子分類器の一般化誤差に関する新しい情報理論上界を導出する。 導出上界は2つの項からなる: 第一は古典的データと量子埋め込みの間の2-R'enyi相互情報の指数関数であり、第二項は逆摂動サイズ$\epsilon$と線形にスケールする。 両方の項は、トレーニングセットサイズ$T$に対して$/\sqrt{T}$として減少する。 トレーニング中に想定される敵が、テスト入力に影響を与える相手と比較して、$p$と$\epsilon$が異なるパラメータを持つ拡張も考慮されている。 最後に, 合成設定のための数値実験を行い, 理論的知見を検証した。

In a manner analogous to their classical counterparts, quantum classifiers are vulnerable to adversarial attacks that perturb their inputs. A promising countermeasure is to train the quantum classifier by adopting an attack-aware, or adversarial, loss function. This paper studies the generalization properties of quantum classifiers that are adversarially trained against bounded-norm white-box attacks. Specifically, a quantum adversary maximizes the classifier's loss by transforming an input state $\rho(x)$ into a state $\lambda$ that is $\epsilon$-close to the original state $\rho(x)$ in $p$-Schatten distance. Under suitable assumptions on the quantum embedding $\rho(x)$, we derive novel information-theoretic upper bounds on the generalization error of adversarially trained quantum classifiers for $p = 1$ and $p = \infty$. The derived upper bounds consist of two terms: the first is an exponential function of the 2-R\'enyi mutual information between classical data and quantum embedding, while the second term scales linearly with the adversarial perturbation size $\epsilon$. Both terms are shown to decrease as $1/\sqrt{T}$ over the training set size $T$ . An extension is also considered in which the adversary assumed during training has different parameters $p$ and $\epsilon$ as compared to the adversary affecting the test inputs. Finally, we validate our theoretical findings with numerical experiments for a synthetic setting.
翻訳日:2024-02-16 20:52:19 公開日:2024-02-15
# MasonTigers@LT-EDI-2024:ソーシャルメディアコメントにおけるホモフォビアとトランスフォビアの検出に向けたアンサンブルアプローチ

MasonTigers@LT-EDI-2024: An Ensemble Approach Towards Detecting Homophobia and Transphobia in Social Media Comments ( http://arxiv.org/abs/2401.14681v2 )

ライセンス: Link先を確認
Dhiman Goswami, Sadiya Sayara Chowdhury Puspo, Md Nishat Raihan, Al Nahian Bin Emran(参考訳) 本稿では,10言語にわたるホモフォビアおよび/またはトランスフォビアの検出を目的としたLT-EDI 2024ワークショップのタスク2のアプローチと結果について述べる。 提案手法は単言語トランスフォーマーとアンサンブル法を含み,それぞれの強みを活かしてモデルの性能を向上させる。 アンサンブルモデルはうまくいき、マクロF1スコアによって測定された10言語中8言語のトップ5に、私たちのチームであるMasonTigersを配置しました。 本研究は,多言語シナリオにおけるアンサンブル手法の有効性を強調し,言語固有のタスクの複雑さに対処する。

In this paper, we describe our approaches and results for Task 2 of the LT-EDI 2024 Workshop, aimed at detecting homophobia and/or transphobia across ten languages. Our methodologies include monolingual transformers and ensemble methods, capitalizing on the strengths of each to enhance the performance of the models. The ensemble models worked well, placing our team, MasonTigers, in the top five for eight of the ten languages, as measured by the macro F1 score. Our work emphasizes the efficacy of ensemble methods in multilingual scenarios, addressing the complexities of language-specific tasks.
翻訳日:2024-02-16 20:51:46 公開日:2024-02-15
# VQAにおける視覚的接地法の全可能性

Uncovering the Full Potential of Visual Grounding Methods in VQA ( http://arxiv.org/abs/2401.07803v2 )

ライセンス: Link先を確認
Daniel Reich, Tanja Schultz(参考訳) VQA(Visual Question Answering)における視覚的グラウンドリング(VG)手法は、モデルが質問関連視覚情報に依存することを強化することにより、VQAの性能を向上させる。 視覚入力におけるそのような関連情報の存在は、通常、トレーニングやテストにおいて仮定される。 しかし、この仮定は、大規模なVQAで共通する不完全な画像表現を扱う際には本質的に欠陥があり、視覚的特徴によってもたらされる情報は、期待される地味コンテンツからしばしば逸脱する。 結果として、vg-methodsのトレーニングとテストは、ほとんど不正確なデータで行われ、その潜在的なメリットの適切な評価が妨げられる。 本研究では,vg手法に対する現在の評価手法が,関連する視覚情報の可利用性に欠陥があるため問題となっていることを示す。 実験の結果, 評価条件が修正された場合, より効果的であることが判明した。 コードはGitHubで提供されている。

Visual Grounding (VG) methods in Visual Question Answering (VQA) attempt to improve VQA performance by strengthening a model's reliance on question-relevant visual information. The presence of such relevant information in the visual input is typically assumed in training and testing. This assumption, however, is inherently flawed when dealing with imperfect image representations common in large-scale VQA, where the information carried by visual features frequently deviates from expected ground-truth contents. As a result, training and testing of VG-methods is performed with largely inaccurate data, which obstructs proper assessment of their potential benefits. In this study, we demonstrate that current evaluation schemes for VG-methods are problematic due to the flawed assumption of availability of relevant visual information. Our experiments show that these methods can be much more effective when evaluation conditions are corrected. Code is provided on GitHub.
翻訳日:2024-02-16 20:51:33 公開日:2024-02-15
# LLMテキスト強化における多様性インセンティブがサンプル多様性および下流モデル性能に及ぼす影響

Effects of diversity incentives on sample diversity and downstream model performance in LLM-based text augmentation ( http://arxiv.org/abs/2401.06643v2 )

ライセンス: Link先を確認
Jan Cegin, Branislav Pecher, Jakub Simko, Ivan Srba, Maria Bielikova, Peter Brusilovsky(参考訳) 最新の生成型大規模言語モデル(LLM)は、少数のテキストサンプルをLLMで表現し、下流モデルの微調整に使用するデータ拡張タスクにその応用を見出した。 しかしながら、異なるプロンプト、シードデータ選択戦略、フィルタリング方法、モデル設定がパラフレッシュデータ(および下流モデル)の品質に与える影響を評価するには、さらなる研究が必要である。 本研究では,クラウドソーシングにおいて確立された3つのテキスト多様性インセンティブ手法について検討した。 これらのインセンティブ手法を,テキストデータセットを拡張したllmの指示の一部として用いることで,語彙の多様性と下流モデルの性能を計測する。 5つの異なるLLM、6つのデータセット、2つの下流モデルに対する効果を比較した。 タブー語によって多様性は最も増大するが、下流モデルのパフォーマンスはヒントとともに最高である。

The latest generative large language models (LLMs) have found their application in data augmentation tasks, where small numbers of text samples are LLM-paraphrased and then used to fine-tune downstream models. However, more research is needed to assess how different prompts, seed data selection strategies, filtering methods, or model settings affect the quality of paraphrased data (and downstream models). In this study, we investigate three text diversity incentive methods well established in crowdsourcing: taboo words, hints by previous outlier solutions, and chaining on previous outlier solutions. Using these incentive methods as part of instructions to LLMs augmenting text datasets, we measure their effects on generated texts lexical diversity and downstream model performance. We compare the effects over 5 different LLMs, 6 datasets and 2 downstream models. We show that diversity is most increased by taboo words, but downstream model performance is highest with hints.
翻訳日:2024-02-16 20:51:18 公開日:2024-02-15
# 文書レベル機械翻訳における大規模言語モデルの適用

Adapting Large Language Models for Document-Level Machine Translation ( http://arxiv.org/abs/2401.06468v2 )

ライセンス: Link先を確認
Minghao Wu, Thuy-Trang Vu, Lizhen Qu, George Foster, Gholamreza Haffari(参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて大きな進歩を遂げている。 近年の研究では、中程度のLLMはタスク固有の微調整の後、より大きなLLMよりも優れていることが示されている。 本研究では,特定の言語対に対する文書レベルの機械翻訳(DocMT)を専門とするLLMの適応プロセスについて検討する。 まず,提案手法が下流翻訳性能に与える影響について検討する。 次に、2つの微調整方法、3つのllmバックボーン、18の翻訳タスクを9つの言語ペアで広範囲に実験する。 以上の結果から, 翻訳性能がgpt-4を上回ることすらあるが, 言語間並列文書にのみ微調整されている場合においても, 目標外翻訳問題に苦しむケースもみられた。 さらに, docmt用に調整されたこれらのllmの詳細な分析を行い, 翻訳誤り, 談話現象, 訓練戦略, 並列文書のスケーリング則, 最近のテストセットに対する追加評価, ゼロショット言語間転送などについて検討した。 LLMを用いたDocMTモデルの強度と限界だけでなく,今後の研究の基盤にもなっている。

Large language models (LLMs) have made significant strides in various natural language processing (NLP) tasks. Recent research shows that the moderately-sized LLMs often outperform their larger counterparts after task-specific fine-tuning. In this work, we delve into the process of adapting LLMs to specialize in document-level machine translation (DocMT) for a specific language pair. Firstly, we explore how prompt strategies affect downstream translation performance. Then, we conduct extensive experiments with two fine-tuning methods, three LLM backbones, and 18 translation tasks across nine language pairs. Our findings indicate that in some cases, these specialized models even surpass GPT-4 in translation performance, while they still significantly suffer from the off-target translation issue in others, even if they are exclusively fine-tuned on bilingual parallel documents. Furthermore, we provide an in-depth analysis of these LLMs tailored for DocMT, exploring aspects such as translation errors, discourse phenomena, training strategy, the scaling law of parallel documents, additional evaluation on recent test sets, and zero-shot crosslingual transfer. Our findings not only shed light on the strengths and limitations of LLM-based DocMT models but also provide a foundation for future research.
翻訳日:2024-02-16 20:51:01 公開日:2024-02-15
# ChartAssisstant: Chart-to-Table事前学習とマルチタスク指導チューニングによるユニバーサルチャートマルチモーダル言語モデル

ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning ( http://arxiv.org/abs/2401.02384v3 )

ライセンス: Link先を確認
Fanqing Meng, Wenqi Shao, Quanfeng Lu, Peng Gao, Kaipeng Zhang, Yu Qiao, Ping Luo(参考訳) データ視覚化、データパターン理解、情報意思決定において、チャートは重要な役割を果たす。 しかし、それらのグラフィカル要素(バー、ラインなど)とテキストコンポーネント(ラベル、レジェンドなど)のユニークな組み合わせは、汎用のマルチモーダルモデルにとって課題となる。 グラフデータに基づいて訓練された視覚言語モデルは理解に優れるが、一般化に苦慮している。 これらの課題に対処するために,ユニバーサルチャート理解と推論のためのグラフベースのビジョン言語モデルであるchart assistantを提案する。 chart assistantはchartftという、さまざまなチャート関連のタスクをカバーする包括的なデータセットを、基本的な(バーやパイなど)と特別な(レーダーやバブルなど)チャートタイプで活用している。 まず、チャートからテーブルへのパースを事前トレーニングし、チャートとテキストを調整し、次にマルチタスクのインストラクションフォローの微調整を行う。 このアプローチにより、ChartAssistantは、さまざまなチャートタスク間での競合的なパフォーマンスを達成することができる。 実験の結果、最先端のunichartおよびchartllama法に比べて、特にゼロショット設定で実世界のチャートデータよりも優れた性能が得られた。 コードとデータはhttps://github.com/opengvlab/chartastで入手できる。

Charts play a vital role in data visualization, understanding data patterns, and informed decision-making. However, their unique combination of graphical elements (e.g., bars, lines) and textual components (e.g., labels, legends) poses challenges for general-purpose multimodal models. While vision-language models trained on chart data excel in comprehension, they struggle with generalization. To address these challenges, we propose ChartAssistant, a chart-based vision-language model for universal chart comprehension and reasoning. ChartAssistant leverages ChartSFT, a comprehensive dataset covering diverse chart-related tasks with basic (e.g. bars and pies) and specialized (e.g. radars, and bubbles) chart types. It undergoes a two-stage training process, starting with pre-training on chart-to-table parsing to align chart and text, followed by multitask instruction-following fine-tuning. This approach enables ChartAssistant to achieve competitive performance across various chart tasks. Experimental results demonstrate significant performance gains over the state-of-the-art UniChart and Chartllama method, especially outperforming them on real-world chart data with zero-shot setting. The code and data are available at https://github.com/OpenGVLab/ChartAst.
翻訳日:2024-02-16 20:50:37 公開日:2024-02-15
# PokeMQA: マルチホップ質問回答のためのプログラム可能な知識編集

PokeMQA: Programmable knowledge editing for Multi-hop Question Answering ( http://arxiv.org/abs/2312.15194v2 )

ライセンス: Link先を確認
Hengrui Gu, Kaixiong Zhou, Xiaotian Han, Ninghao Liu, Ruobing Wang, Xin Wang(参考訳) マルチホップ質問応答(mqa、multi-hop question answering)は、機械の理解と推論能力を評価するための困難なタスクの1つであり、大規模言語モデル(llm)が人間の比較可能な性能を広く達成している。 実世界の知識事実のダイナミクスにより、知識編集は、高価な再訓練や微調整を避けつつ、最新の事実でモデルを更新するために研究されている。 編集された事実から始めて、更新されたモデルはMQAの連鎖のカスケード的な変更を提供する必要があります。 従来の技術では、質問分解、回答生成、コンフリクトチェックを含む複数の推論タスクを、編集された事実と比較することで順次実行するようLLMに指示する混合プロンプトを単に採用している。 しかし、これらの機能的多角的推論タスクの結合は、コンフリクトチェックの未熟なタスクを邪魔しながら、質問の理解と回答においてllmsの利点を阻害する。 そこで我々は,マルチホップ質問回答(PokeMQA)のための,プログラム可能な知識編集フレームワークを提案する。 具体的には,外部のコンフリクト信号に応じてllmsの挙動を変調するために,分離学習可能なスコープ検出器と対話しながら,知識提示型マルチホップ質問の分解を促す。 3つのllmバックボーンと2つのベンチマークデータセットに関する実験は、mqaの知識編集における当社の優位性を検証し、ほぼすべての設定において、すべての競合相手を圧倒し、一貫して信頼できる推論プロセスを生み出しています。

Multi-hop question answering (MQA) is one of the challenging tasks to evaluate machine's comprehension and reasoning abilities, where large language models (LLMs) have widely achieved the human-comparable performance. Due to the dynamics of knowledge facts in real world, knowledge editing has been explored to update model with the up-to-date facts while avoiding expensive re-training or fine-tuning. Starting from the edited fact, the updated model needs to provide cascading changes in the chain of MQA. The previous art simply adopts a mix-up prompt to instruct LLMs conducting multiple reasoning tasks sequentially, including question decomposition, answer generation, and conflict checking via comparing with edited facts. However, the coupling of these functionally-diverse reasoning tasks inhibits LLMs' advantages in comprehending and answering questions while disturbing them with the unskilled task of conflict checking. We thus propose a framework, Programmable knowledge editing for Multi-hop Question Answering (PokeMQA), to decouple the jobs. Specifically, we prompt LLMs to decompose knowledge-augmented multi-hop question, while interacting with a detached trainable scope detector to modulate LLMs behavior depending on external conflict signal. The experiments on three LLM backbones and two benchmark datasets validate our superiority in knowledge editing of MQA, outperforming all competitors by a large margin in almost all settings and consistently producing reliable reasoning process.
翻訳日:2024-02-16 20:49:53 公開日:2024-02-15
# データ拡張と動的サンプリング法による神経定理の証明の強化

Enhancing Neural Theorem Proving through Data Augmentation and Dynamic Sampling Method ( http://arxiv.org/abs/2312.14188v2 )

ライセンス: Link先を確認
Rahul Vishwakarma and Subhankar Mishra(参考訳) 定理証明は数学の基本的な課題である。 リーンのような大規模言語モデル(LLM)や対話型定理証明器(ITP)の出現により、LLMとIPPを統合することへの関心が高まっている。 このアプローチでは、LCMは証明ステップ(戦術)を生成し、IPPは現在の目標における戦術の適用性をチェックする。 2つのシステムが協力して証明を完成させる。 本稿では,定理証明のための新しい動的サンプリング手法であるDS-Proverを紹介する。 この方法は、定理を証明するために割り当てられた合計時間と比較して、現在の目標を拡大するための戦術の数を動的に決定する。 これにより、時間経過とともに探索と搾取のバランスを調整することにより、証明探索プロセスの効率が向上する。 また、単純化と書き直しの戦術を複数の前提で1つの前提で戦術に分解することで、トレーニングデータセットも強化します。 これにより、モデルが学ぶべき実例が増え、前提でより正確に戦術を予測するのに役立ちます。 我々は,Lean定理証明器のMathlibデータセットを用いて実験を行い,MiniF2FとProofNetの2つの標準データセットのパフォーマンスを報告する。 提案手法は,両データセットで有意な性能向上を実現する。 最先端のパフォーマンス(pass@1)をプルーフネットデータセットで14.2%、minif2fで29.8%、リーンで29.6%のpass@1をわずかに上回って達成しました。

Theorem proving is a fundamental task in mathematics. With the advent of large language models (LLMs) and interactive theorem provers (ITPs) like Lean, there has been growing interest in integrating LLMs and ITPs to automate theorem proving. In this approach, the LLM generates proof steps (tactics), and the ITP checks the applicability of the tactics at the current goal. The two systems work together to complete the proof. In this paper, we introduce DS-Prover, a novel dynamic sampling method for theorem proving. This method dynamically determines the number of tactics to apply to expand the current goal, taking into account the remaining time compared to the total allocated time for proving a theorem. This makes the proof search process more efficient by adjusting the balance between exploration and exploitation as time passes. We also augment the training dataset by decomposing simplification and rewrite tactics with multiple premises into tactics with single premises. This gives the model more examples to learn from and helps it to predict the tactics with premises more accurately. We perform our experiments using the Mathlib dataset of the Lean theorem prover and report the performance on two standard datasets, MiniF2F and ProofNet. Our methods achieve significant performance gains on both datasets. We achieved a state-of-the-art performance (Pass@1) of 14.2% on the ProofNet dataset and a performance of 29.8% on MiniF2F, slightly surpassing the best-reported Pass@1 of 29.6% using Lean.
翻訳日:2024-02-16 20:49:24 公開日:2024-02-15
# スコアを守る:差分プライバシー保証付き連絡先追跡

Protect Your Score: Contact Tracing With Differential Privacy Guarantees ( http://arxiv.org/abs/2312.11581v2 )

ライセンス: Link先を確認
Rob Romijnders, Christos Louizos, Yuki M. Asano, Max Welling(参考訳) 2020年と2021年のパンデミックは、経済と社会に大きな影響をもたらし、研究は、接触追跡アルゴリズムがウイルスの早期封じ込めの鍵であることを示している。 より効果的なコンタクトトレースアルゴリズムに向けて、大きな努力が続けられていますが、プライバシーに関する懸念が現在、デプロイを後退させています。 接触追跡アルゴリズムの本質は、リスクスコアの通信を構成する。 しかし、相手が個人個人の健康状態を測定するために利用できるのは、まさにこのスコアのコミュニケーションとリリースである。 我々は、現実的な攻撃シナリオを特定し、この攻撃に対して差分プライバシー保証を持つ接触追跡アルゴリズムを提案する。 このアルゴリズムは2つの最も広く使われているエージェントベースのCOVID19シミュレータでテストされ、幅広い設定で優れた性能を示す。 特に現実的なテストシナリオでは、それぞれのリスクスコアをepsilon=1差分プライバシでリリースしながら、ウイルスの感染率を2倍から10倍に削減します。 我々の知る限り、COVID-19のリスクスコアを明らかにする際に、差分プライバシーを保証する最初の接触追跡アルゴリズムを示す。

The pandemic in 2020 and 2021 had enormous economic and societal consequences, and studies show that contact tracing algorithms can be key in the early containment of the virus. While large strides have been made towards more effective contact tracing algorithms, we argue that privacy concerns currently hold deployment back. The essence of a contact tracing algorithm constitutes the communication of a risk score. Yet, it is precisely the communication and release of this score to a user that an adversary can leverage to gauge the private health status of an individual. We pinpoint a realistic attack scenario and propose a contact tracing algorithm with differential privacy guarantees against this attack. The algorithm is tested on the two most widely used agent-based COVID19 simulators and demonstrates superior performance in a wide range of settings. Especially for realistic test scenarios and while releasing each risk score with epsilon=1 differential privacy, we achieve a two to ten-fold reduction in the infection rate of the virus. To the best of our knowledge, this presents the first contact tracing algorithm with differential privacy guarantees when revealing risk scores for COVID19.
翻訳日:2024-02-16 20:48:59 公開日:2024-02-15
# MAC-SQL: テキストからSQLへのコラボレーションフレームワーク

MAC-SQL: A Multi-Agent Collaborative Framework for Text-to-SQL ( http://arxiv.org/abs/2312.11242v3 )

ライセンス: Link先を確認
Bing Wang, Changyu Ren, Jian Yang, Xinnian Liang, Jiaqi Bai, Linzheng Chai, Zhao Yan, Qian-Wen Zhang, Di Yin, Xing Sun, Zhoujun Li(参考訳) 最近の LLM ベースの Text-to-SQL メソッドは,‘大規模’ データベースや複数ステップの推論を必要とする複雑なユーザ質問に対して,パフォーマンスが著しく低下することが多い。 さらに、既存のほとんどの手法は、外部ツールやモデルコラボレーションを利用したLLMの重要な重要性を無視している。 これらの課題に対処するために,新しいLLMベースのマルチエージェント協調フレームワークMAC-SQLを紹介する。 本フレームワークは,外部ツールやモデルを用いてより小さなサブデータベースを取得し,誤ったSQLクエリを精査する2つの補助エージェントを伴って,数発の連鎖推論によるテキストからSQL生成のためのコアデコンポーザエージェントで構成されている。 decomposerエージェントは、必要に応じてアクティベートされ、効率的なテキストからsqlパースのための新機能やツールに合わせて拡張できる補助エージェントと協調する。 我々のフレームワークでは、まず、GPT-4 を全てのエージェントタスクの強力なバックボーン LLM として利用し、フレームワークの上限を決定する。 GPT-4のように,Code Llama 7Bを活用することで,オープンソースの命令フォローモデルSQL-Llamaを微調整する。 実験の結果、SQL-Llama はバニラ GPT-4 のベースライン精度 46.35 と比較して 43.94 の実行精度を達成した。 執筆時点で、MAC-SQL+GPT-4はBIRDベンチマークで評価すると59.59の実行精度を達成し、そのホールドアウトテストセット(https://github.com/wbbeyourself/MAC-SQL)上に新しい最先端(SOTA)を確立する。

Recent LLM-based Text-to-SQL methods usually suffer from significant performance degradation on ``huge" databases and complex user questions that require multi-step reasoning. Moreover, most existing methods neglect the crucial significance of LLMs utilizing external tools and model collaboration. To address these challenges, we introduce MAC-SQL, a novel LLM-based multi-agent collaborative framework. Our framework comprises a core decomposer agent for Text-to-SQL generation with few-shot chain-of-thought reasoning, accompanied by two auxiliary agents that utilize external tools or models to acquire smaller sub-databases and refine erroneous SQL queries. The decomposer agent collaborates with auxiliary agents, which are activated as needed and can be expanded to accommodate new features or tools for effective Text-to-SQL parsing. In our framework, We initially leverage GPT-4 as the strong backbone LLM for all agent tasks to determine the upper bound of our framework. We then fine-tune an open-sourced instruction-followed model, SQL-Llama, by leveraging Code Llama 7B, to accomplish all tasks as GPT-4 does. Experiments show that SQL-Llama achieves a comparable execution accuracy of 43.94, compared to the baseline accuracy of 46.35 for vanilla GPT-4. At the time of writing, MAC-SQL+GPT-4 achieves an execution accuracy of 59.59 when evaluated on the BIRD benchmark, establishing a new state-of-the-art (SOTA) on its holdout test set (https://github.com/wbbeyourself/MAC-SQL).
翻訳日:2024-02-16 20:48:42 公開日:2024-02-15
# ベイズアクティブラーニングによる自己補正ベイズ最適化

Self-Correcting Bayesian Optimization through Bayesian Active Learning ( http://arxiv.org/abs/2304.11005v3 )

ライセンス: Link先を確認
Carl Hvarfner, Erik Hellsten, Frank Hutter, Luigi Nardi(参考訳) ガウス過程はベイズ最適化とアクティブ学習における選択モデルである。 しかし、彼らは十分に選択されたハイパーパラメーターに非常に依存しており、文献の中で優れたハイパーパラメーターを見つけることにはほとんど注力していない。 本稿では,GPに対する優れたハイパーパラメータ選択の影響を実証し,ハイパーパラメータ学習を優先する2つの獲得関数を提案する。 統計的距離に基づくアクティブラーニング(SAL)は、統計的距離によって測定された後部からのサンプル間の平均的な不一致を考察する。 salはいくつかのテスト関数でベイズアクティブラーニングの最先端を上回っている。 次に、SALを拡張してベイズ最適化とアクティブラーニングを同時に行う自己補正ベイズ最適化(SCoreBO)を導入する。 SCoreBOは、バニラBOと比べて改善された速度でモデルハイパーパラメータを学習し、従来のベンチマークで最新のベイズ最適化手法より優れている。 さらに,非定型ベイズ最適化タスクにおける自己補正の重要性を示す。

Gaussian processes are the model of choice in Bayesian optimization and active learning. Yet, they are highly dependent on cleverly chosen hyperparameters to reach their full potential, and little effort is devoted to finding good hyperparameters in the literature. We demonstrate the impact of selecting good hyperparameters for GPs and present two acquisition functions that explicitly prioritize hyperparameter learning. Statistical distance-based Active Learning (SAL) considers the average disagreement between samples from the posterior, as measured by a statistical distance. SAL outperforms the state-of-the-art in Bayesian active learning on several test functions. We then introduce Self-Correcting Bayesian Optimization (SCoreBO), which extends SAL to perform Bayesian optimization and active learning simultaneously. SCoreBO learns the model hyperparameters at improved rates compared to vanilla BO, while outperforming the latest Bayesian optimization methods on traditional benchmarks. Moreover, we demonstrate the importance of self-correction on atypical Bayesian optimization tasks.
翻訳日:2024-02-16 19:02:33 公開日:2024-02-15
# 混合信号型ニューロモルフィックプロセッサのグラディエント・ディフレッシュ・ハードウェア・アウェアトレーニングと展開

Gradient-descent hardware-aware training and deployment for mixed-signal Neuromorphic processors ( http://arxiv.org/abs/2303.12167v2 )

ライセンス: Link先を確認
U\u{g}urcan \c{C}akal, Maryada, Chenxi Wu, Ilkay Ulusoy, Dylan R. Muir(参考訳) 混合信号ニューロモルフィックプロセッサは、スパイキングニューラルネットワーク(SNN)内の疎非同期計算を活用することにより、エッジ推論ワークロードに対して極めて低消費電力な演算を提供する。 しかしながら、これらのデバイスにロバストなアプリケーションをデプロイすることは、アナログハードウェアパラメータ上の制御可能性の制限や、非理想的製造によるアナログ回路の意図しないパラメータや動的変動によって複雑である。 本稿では、混合信号型ニューロモルフィックプロセッサDYNAP-SE2に対するスパイキングニューラルネットワーク(SNN)の訓練と展開のための新しい手法を示す。 本手法は,混合信号装置の微分可能なシミュレーションと教師なし重み量子化法を併用してネットワークパラメータの最適化を行う。 トレーニング中のパラメータノイズ注入は、量子化とデバイスミスマッチの影響に対して堅牢性を提供し、ハードウェア制約や非理想性の下での現実のアプリケーションへの有望な候補となる。 この作業は、SNNのためのオープンソースのディープラーニングライブラリであるRockpoolを拡張し、混合信号SNNダイナミクスの正確なシミュレーションをサポートする。 我々のアプローチは、神経形態素コミュニティの開発と展開を単純化し、混合信号型神経形態素プロセッサを研究者や開発者にとってよりアクセスしやすくする。

Mixed-signal neuromorphic processors provide extremely low-power operation for edge inference workloads, taking advantage of sparse asynchronous computation within Spiking Neural Networks (SNNs). However, deploying robust applications to these devices is complicated by limited controllability over analog hardware parameters, as well as unintended parameter and dynamical variations of analog circuits due to fabrication non-idealities. Here we demonstrate a novel methodology for ofDine training and deployment of spiking neural networks (SNNs) to the mixed-signal neuromorphic processor DYNAP-SE2. The methodology utilizes gradient-based training using a differentiable simulation of the mixed-signal device, coupled with an unsupervised weight quantization method to optimize the network's parameters. Parameter noise injection during training provides robustness to the effects of quantization and device mismatch, making the method a promising candidate for real-world applications under hardware constraints and non-idealities. This work extends Rockpool, an open-source deep-learning library for SNNs, with support for accurate simulation of mixed-signal SNN dynamics. Our approach simplifies the development and deployment process for the neuromorphic community, making mixed-signal neuromorphic processors more accessible to researchers and developers.
翻訳日:2024-02-16 19:02:18 公開日:2024-02-15
# オーバーザ・エアフェデレーション学習における逆実現可能性

Inverse Feasibility in Over-the-Air Federated Learning ( http://arxiv.org/abs/2211.14115v4 )

ライセンス: Link先を確認
Tomasz Piotrowski, Rafail Ismayilov, Matthias Frey, Renato L.G. Cavalcante(参考訳) 線形フォワードモデルに対する逆実現可能性の概念をOTA FLアルゴリズムの強化ツールとして導入する。 逆実現性は、フォワード演算子の条件数上の上限として、そのパラメータの関数として定義される。 この定義を用いて既存のOTA FLモデルを解析し、改善すべき領域を特定し、新しいOTA FLモデルを提案する。 数値実験は理論結果の主な意味を説明している。 提案手法は逆問題理論に基づくもので,既存のセキュリティとプライバシの概念を,ネットワークにさらに望ましい特性を与えることで補完することができる。

We introduce the concept of inverse feasibility for linear forward models as a tool to enhance OTA FL algorithms. Inverse feasibility is defined as an upper bound on the condition number of the forward operator as a function of its parameters. We analyze an existing OTA FL model using this definition, identify areas for improvement, and propose a new OTA FL model. Numerical experiments illustrate the main implications of the theoretical results. The proposed framework, which is based on inverse problem theory, can potentially complement existing notions of security and privacy by providing additional desirable characteristics to networks.
翻訳日:2024-02-16 19:01:54 公開日:2024-02-15
# より少ない場合:半監督型ソフトウェア欠陥予測器の"コトレーニング"の価値について

When Less is More: On the Value of "Co-training" for Semi-Supervised Software Defect Predictors ( http://arxiv.org/abs/2211.05920v2 )

ライセンス: Link先を確認
Suvodeep Majumder, Joymallya Chakraborty and Tim Menzies(参考訳) モジュールの欠陥や非欠陥のラベル付けは高価な作業です。 したがって、トレーニングに利用可能なラベル付きデータの量には、制限があることが多い。 半教師付き分類器はトレーニングモデルにはるかに少ないラベルを使用する。 しかし、自己ラベル付け、コトレーニング、最大マージン、グラフベースのメソッドなど、多くの半教師付き手法がある。 これらのメソッドは、(例えば)欠陥を予測するためにseでテストされ、たとえそこにあっても、ほんの一握りのプロジェクトでテストされています。 本稿では,55名の半教師による学習者を714以上のプロジェクトに適用する。 半教師付き「共同学習方法」は他の手法よりもかなりうまく機能することがわかった。 具体的には、ラベル付け後のデータはわずか2.5%で、100%のデータを使用するものと競合する予測を行う。 とはいえ、コトレーニングメソッドの特定の選択は、ユーザの特定の目標に基づいて慎重に選択する必要があるため、コトレーニングを慎重に使用する必要がある。 また、一般的なコトレーニング手法である「マルチビュー」では、異なる学習者が異なる列の集合を取得できるが、予測は改善されない(実行時間に過大な加算を加えるのは11時間対1.8時間)。 これらの削減がソフトウェア分析の他の領域で見られるかどうかをテストするのは、今後の作業にふさわしいオープン質問である。 他の領域の探索を支援するために、使用されるすべてのコードはhttps://github.com/ai-se/Semi-Supervised.comで入手できる。

Labeling a module defective or non-defective is an expensive task. Hence, there are often limits on how much-labeled data is available for training. Semi-supervised classifiers use far fewer labels for training models. However, there are numerous semi-supervised methods, including self-labeling, co-training, maximal-margin, and graph-based methods, to name a few. Only a handful of these methods have been tested in SE for (e.g.) predicting defects and even there, those methods have been tested on just a handful of projects. This paper applies a wide range of 55 semi-supervised learners to over 714 projects. We find that semi-supervised "co-training methods" work significantly better than other approaches. Specifically, after labeling, just 2.5% of data, then make predictions that are competitive to those using 100% of the data. That said, co-training needs to be used cautiously since the specific choice of co-training methods needs to be carefully selected based on a user's specific goals. Also, we warn that a commonly-used co-training method ("multi-view"-- where different learners get different sets of columns) does not improve predictions (while adding too much to the run time costs 11 hours vs. 1.8 hours). It is an open question, worthy of future work, to test if these reductions can be seen in other areas of software analytics. To assist with exploring other areas, all the codes used are available at https://github.com/ai-se/Semi-Supervised.
翻訳日:2024-02-16 19:01:45 公開日:2024-02-15
# 構造による構造:正規化のない構造的表現

Structure by Architecture: Structured Representations without Regularization ( http://arxiv.org/abs/2006.07796v4 )

ライセンス: Link先を確認
Felix Leeb, Guilia Lanzillotta, Yashas Annadani, Michel Besserve, Stefan Bauer, Bernhard Sch\"olkopf(参考訳) 生成モデルなどの下流タスクにオートエンコーダを用いた自己教師型表現学習の課題について検討する。 サンプリングのための任意で比較的非構造な事前分布のマッチングに依存するほとんどの手法とは異なり、潜在変数の独立性のみに依存するサンプリング手法を提案し、vaesで一般的に見られる再構成品質と生成性能とのトレードオフを回避する。 我々はアグレッシブな正規化を必要とせずに構造化表現を学習できる新しいオートエンコーダアーキテクチャを設計する。 我々の構造デコーダは潜伏変数の階層構造を学習し、追加の正規化や監督なしに情報を順序付けする。 これらのモデルがどのようにして、生成、歪曲、外挿を含む様々な下流タスクの結果を改善する表現を、困難で自然な画像データセットを用いて学習するかを実証する。

We study the problem of self-supervised structured representation learning using autoencoders for downstream tasks such as generative modeling. Unlike most methods which rely on matching an arbitrary, relatively unstructured, prior distribution for sampling, we propose a sampling technique that relies solely on the independence of latent variables, thereby avoiding the trade-off between reconstruction quality and generative performance typically observed in VAEs. We design a novel autoencoder architecture capable of learning a structured representation without the need for aggressive regularization. Our structural decoders learn a hierarchy of latent variables, thereby ordering the information without any additional regularization or supervision. We demonstrate how these models learn a representation that improves results in a variety of downstream tasks including generation, disentanglement, and extrapolation using several challenging and natural image datasets.
翻訳日:2024-02-16 19:01:09 公開日:2024-02-15
# 大規模言語モデルにおけるゼロショット位置偏差

Zero-Shot Position Debiasing for Large Language Models ( http://arxiv.org/abs/2401.01218v2 )

ライセンス: Link先を確認
Zhongkun Liu, Zheng Chen, Mengqi Zhang, Zhaochun Ren, Pengjie Ren, Zhumin Chen(参考訳) ファインチューニングは、大規模言語モデル(LLM)のドメイン性能を改善する効果的な手法であることが示されている。 しかし、LLMはデータセットバイアスと予測のショートカットに適合し、世代パフォーマンスが低下する可能性がある。 以前の研究は、llmが位置バイアス、すなわち、初期または終端に位置する情報、または入力内の特定の位置手がかりを利用する傾向があることを証明している。 既存のLCMの脱バイアス法では、外的バイアス知識や注釈付き非バイアスサンプルが必要であり、実際の位置脱バイアスや非実用性に欠ける。 本研究では,LLMの位置バイアスを軽減するため,ゼロショット位置バイアス(ZOE)フレームワークを提案する。 ZOEは、事前訓練されたLLMからの教師なしの応答を利用して、外部の知識に頼ることなくデバイアスを発生させる。 教師なし応答の品質を向上させるため,これらの応答をpruneするmsaモジュールを提案する。 8つのデータセットと5つのタスクの実験により、ZOEは3種類の位置バイアスを緩和する既存の手法を一貫して上回っていることが示された。 さらにZOEは、偏りのあるサンプルに小さなパフォーマンスを犠牲にして、これを達成している。 結果の再現性を高めるため、https://anonymous.4open.science/r/zoe-f06bですべてのメソッドとデータセットのコードを共有します。

Fine-tuning has been demonstrated to be an effective method to improve the domain performance of large language models (LLMs). However, LLMs might fit the dataset bias and shortcuts for prediction, leading to poor generation performance. Previous works have proven that LLMs are prone to exhibit position bias, i.e., leveraging information positioned at the beginning or end, or specific positional cues within the input. Existing debiasing methods for LLMs require external bias knowledge or annotated non-biased samples, which is lacking for position debiasing and impractical in reality. In this work, we propose a zero-shot position debiasing (ZOE) framework to mitigate position bias for LLMs. ZOE leverages unsupervised responses from pre-trained LLMs for debiasing without relying on any external knowledge. To improve the quality of unsupervised responses, we propose a MSA module to prune these responses. Experiments on eight datasets and five tasks show that ZOE consistently outperforms existing methods in mitigating three types of position biases. Besides, ZOE achieves this by sacrificing only a small performance on biased samples, which is general and effective. To facilitate the reproducibility of the results, we share the code of all methods and datasets on https://anonymous.4open.science/r/ZOE-F06B.
翻訳日:2024-02-16 18:57:50 公開日:2024-02-15
# 合成画像は人造アート偽造者の認識を助ける

Synthetic images aid the recognition of human-made art forgeries ( http://arxiv.org/abs/2312.14998v3 )

ライセンス: Link先を確認
Johann Ostmeyer, Ludovica Schaerf, Pavel Buividovich, Tessa Charles, Eric Postma, Carina Popovici(参考訳) これまでの研究によると、人工知能は特定のアーティストによる本物の絵画と、驚くほどの精度で人造の偽造品を区別できるという。 しかし, 既知偽造の数が限られているため, 偽造検出のための増補法が望まれる。 本研究では, 合成アートワークをトレーニングデータセットに組み込むことにより, 偽造検出性能を向上させる可能性を検討する。 我々はVincent van Gogh氏による絵画に焦点を当て、偽造検出に特化した最初のデータセットをリリースしました。 結果を強化するため、Amedeo Modigliani と Raphael で同様の分析を行った。 原画と偽物とを区別するために分類器を訓練する。 このために、有名なアーティストのスタイルで人造の偽造品や模倣品を使用し、Stable DiffusionとStyleGANが生成した同様のスタイルのイメージでトレーニングセットを拡張する。 追加の合成偽造物は、一貫して人造偽造物の検出を改善している。 さらに, 従来の研究と並行して, トレーニングに合成偽造物を含めることで, 特に類似の発電機を用いて生成したAI生成偽造物の検出が可能となった。

Previous research has shown that Artificial Intelligence is capable of distinguishing between authentic paintings by a given artist and human-made forgeries with remarkable accuracy, provided sufficient training. However, with the limited amount of existing known forgeries, augmentation methods for forgery detection are highly desirable. In this work, we examine the potential of incorporating synthetic artworks into training datasets to enhance the performance of forgery detection. Our investigation focuses on paintings by Vincent van Gogh, for which we release the first dataset specialized for forgery detection. To reinforce our results, we conduct the same analyses on the artists Amedeo Modigliani and Raphael. We train a classifier to distinguish original artworks from forgeries. For this, we use human-made forgeries and imitations in the style of well-known artists and augment our training sets with images in a similar style generated by Stable Diffusion and StyleGAN. We find that the additional synthetic forgeries consistently improve the detection of human-made forgeries. In addition, we find that, in line with previous research, the inclusion of synthetic forgeries in the training also enables the detection of AI-generated forgeries, especially if created using a similar generator.
翻訳日:2024-02-16 18:57:25 公開日:2024-02-15
# 創発から学ぶ:ニューラルネットワークのモノセマンティックニューロンを積極的に阻害する研究

Learning from Emergence: A Study on Proactively Inhibiting the Monosemantic Neurons of Artificial Neural Networks ( http://arxiv.org/abs/2312.11560v2 )

ライセンス: Link先を確認
Jiachuan Wang, Shimin Di, Lei Chen, Charles Wang Wai Ng(参考訳) 近年,大規模な言語モデルの成功とともに,研究コミュニティから注目が集まっている。 文献と異なり、私たちは、スケールの増大中に高いパフォーマンスを促進する重要な要因、すなわち、特定の特徴と1対1の相関しか形成できない単性ニューロンの削減を仮定する。 単発ニューロンはスパーサーであり、大きなモデルの性能に悪影響を及ぼす。 この知見に触発されて,単節ニューロンを同定し,抑制する直感的なアイデアを提案する。 しかし、この目標を達成することは非自明な作業であり、統一的な定量的評価基準はなく、単神性ニューロンの禁止はニューラルネットワークの多神性を促進するものではない。 そこで本論文では,出現から学習し,単節性ニューロンを積極的に抑制する研究を提案する。 より具体的には、まず、オンライン計算の効率性を保証するために、ニューロンの単神性を測定するための新しい指標を提案し、その後、理論的に支持された単神性ニューロンを抑圧し、ニューラルネットワークのトレーニングにおいて多神性ニューロンの比率を積極的に促進する手法を導入する。 モノセマンティリティは、言語、画像、物理シミュレーションタスクを含むさまざまな分野のさまざまなニューラルネットワークやベンチマークデータセットにおいて、さまざまなモデルスケールのパフォーマンス変化をもたらすという予想を検証する。 さらなる実験により,モノセマンティクスの抑制に関する解析と理論が検証された。

Recently, emergence has received widespread attention from the research community along with the success of large language models. Different from the literature, we hypothesize a key factor that highly promotes the performance during the increase of scale: the reduction of monosemantic neurons that can only form one-to-one correlations with specific features. Monosemantic neurons tend to be sparser and have negative impacts on the performance in large models. Inspired by this insight, we propose an intuitive idea to identify monosemantic neurons and inhibit them. However, achieving this goal is a non-trivial task as there is no unified quantitative evaluation metric and simply banning monosemantic neurons does not promote polysemanticity in neural networks. Therefore, we propose to learn from emergence and present a study on proactively inhibiting the monosemantic neurons in this paper. More specifically, we first propose a new metric to measure the monosemanticity of neurons with the guarantee of efficiency for online computation, then introduce a theoretically supported method to suppress monosemantic neurons and proactively promote the ratios of polysemantic neurons in training neural networks. We validate our conjecture that monosemanticity brings about performance change at different model scales on a variety of neural networks and benchmark datasets in different areas, including language, image, and physics simulation tasks. Further experiments validate our analysis and theory regarding the inhibition of monosemanticity.
翻訳日:2024-02-16 18:57:05 公開日:2024-02-15
# 余計なこと:強化コンテキストプルーニングによるLLM推論の強化

Fewer is More: Boosting LLM Reasoning with Reinforced Context Pruning ( http://arxiv.org/abs/2312.08901v3 )

ライセンス: Link先を確認
Xijie Huang, Li Lyna Zhang, Kwang-Ting Cheng, Fan Yang, Mao Yang(参考訳) 大きな言語モデル(LLM)は印象的な能力を示しているが、それでも数学の推論に苦戦している。 本研究では,LLMの数学的推論を改善するために,数発のChain-of-Thoughts(CoT)学習の境界を推し進める新しいアプローチであるCoT-Influxを提案する。 CoT-Influxは、より簡潔なCoTサンプルをプロンプトに付加することで、LCM推論性能を向上させることができるという観察により、CoTサンプルの入力を最大化するために粗粒プルーナを使用している。 prunerは、まず可能な限り重要なcotサンプルを選択し、次にコンテキストウィンドウに合うように重要でないトークンをプルする。 様々な難易度と推論ステップを持つ数学推論データセットは、数学特化強化学習アプローチとともに、プルーナーの訓練に使用される。 その結果、トークンのコンテキストウィンドウサイズを2倍にすることで、CoT-Influxは様々なLCM(LLaMA2-7B、13B、70B)と5つの数学データセットで様々なプロンプトベースラインを著しく上回り、最大4.55%の改善を実現した。 注目すべきは、微調整なしでは、CoT-Influxを搭載したLLaMA2-70Bは、GSM8K上の幅広いLLM(PaLM、Minerva 540Bなど)とGPT-3.5を超えることである。 CoT-InfluxはLLMのプラグアンドプレイモジュールとして機能し、自己整合性や自己検証といった既存の推論技術と互換性がある。

Large Language Models (LLMs) have shown impressive capabilities, yet they still struggle with math reasoning. In this work, we propose CoT-Influx, a novel approach that pushes the boundary of few-shot Chain-of-Thoughts (CoT) learning to improve LLM mathematical reasoning. Motivated by the observation that adding more concise CoT examples in the prompt can improve LLM reasoning performance, CoT-Influx employs a coarse-to-fine pruner to maximize the input of effective and concise CoT examples. The pruner first selects as many crucial CoT examples as possible and then prunes unimportant tokens to fit the context window. A math reasoning dataset with diverse difficulty levels and reasoning steps is used to train the pruner, along with a math-specialized reinforcement learning approach. As a result, by enabling more CoT examples with double the context window size in tokens, CoT-Influx significantly outperforms various prompting baselines across various LLMs (LLaMA2-7B, 13B, 70B) and 5 math datasets, achieving up to 4.55% absolute improvements. Remarkably, without any fine-tuning, LLaMA2-70B with CoT-Influx surpasses GPT-3.5 and a wide range of larger LLMs (PaLM, Minerva 540B, etc.) on the GSM8K. CoT-Influx serves as a plug-and-play module for LLMs and is compatible with most existing reasoning prompting techniques, such as self-consistency and self-verification.
翻訳日:2024-02-16 18:56:38 公開日:2024-02-15
# instructbooth: パーソナライズされたテキストからイメージへの生成

InstructBooth: Instruction-following Personalized Text-to-Image Generation ( http://arxiv.org/abs/2312.03011v2 )

ライセンス: Link先を確認
Daewon Chae, Nokyung Park, Jinkyu Kim, Kimin Lee(参考訳) 特定の対象に対して限定された画像セットを使用してテキストから画像へのモデルをパーソナライズすることは、主題特異的画像生成において研究されている。 しかし、既存の手法は、限られた訓練画像に過度に適合するため、テキストプロンプトと整合する際の課題に直面することが多い。 本稿では,パーソナライズ機能を犠牲にすることなく,パーソナライズされたテキストから画像へのアライメントを強化するための新しい手法であるinstructboothを提案する。 提案手法は,テキストから画像へのパーソナライズを,一意な識別子を用いて,少数の被写体固有の画像を用いて行う。 パーソナライズ後、強化学習を用いてパーソナライズされたテキスト対画像モデルを微調整し、画像とテキストのアライメントを定量化する報酬を最大化する。 さらに,この2つのプロセス間の相乗効果を高めるための補完手法を提案する。 提案手法は,個人化能力を維持しつつ,既存のベースラインよりも優れた画像テキストアライメントを示す。 人間の評価では、InstructBoothは包括的な要素をすべて考慮すればパフォーマンスが向上する。 プロジェクトページはhttps://sites.google.com/view/instructbooth.comにある。

Personalizing text-to-image models using a limited set of images for a specific object has been explored in subject-specific image generation. However, existing methods often face challenges in aligning with text prompts due to overfitting to the limited training images. In this work, we introduce InstructBooth, a novel method designed to enhance image-text alignment in personalized text-to-image models without sacrificing the personalization ability. Our approach first personalizes text-to-image models with a small number of subject-specific images using a unique identifier. After personalization, we fine-tune personalized text-to-image models using reinforcement learning to maximize a reward that quantifies image-text alignment. Additionally, we propose complementary techniques to increase the synergy between these two processes. Our method demonstrates superior image-text alignment compared to existing baselines, while maintaining high personalization ability. In human evaluations, InstructBooth outperforms them when considering all comprehensive factors. Our project page is at https://sites.google.com/view/instructbooth.
翻訳日:2024-02-16 18:56:05 公開日:2024-02-15
# モデル選択におけるクロスバリデーションと変異バリデーションの実証比較

Empirical Comparison between Cross-Validation and Mutation-Validation in Model Selection ( http://arxiv.org/abs/2311.14079v2 )

ライセンス: Link先を確認
Jinyang Yu, Sami Hamdan, Leonard Sasse, Abigail Morrison, Kaustubh R. Patil(参考訳) 変異検証(MV)は、最近提案されたモデル選択のアプローチであり、広く使われているクロスバリデーション(CV)法と比較して、その特徴と潜在的な利点から重要な関心を集めている。 本研究では,ベンチマークと実世界のデータセットを用いて,MVと$k$fold CVを比較した。 ベイズ試験を用いて, 実用的等価性, CV優越性, MV優越性の3つの後続確率を推定した。 また,選択したモデルの容量と計算効率の差についても検討した。 その結果、MVとCVは、様々な機械学習アルゴリズムとベンチマークデータセットの大部分で、実質的に等価な一般化性能を持つモデルを選択することがわかった。 MVはより単純なモデルを選択し、計算コストを下げるという利点を示した。 しかし、mvは過度に単純化されたモデルを選択し、過度なパラメータ選択の不安定さを示した。 これらのmvの限界は、脳機能的接続を用いて出生時の性別を予測する現実世界の神経科学的タスクの評価においてより顕著となった。

Mutation validation (MV) is a recently proposed approach for model selection, garnering significant interest due to its unique characteristics and potential benefits compared to the widely used cross-validation (CV) method. In this study, we empirically compared MV and $k$-fold CV using benchmark and real-world datasets. By employing Bayesian tests, we compared generalization estimates yielding three posterior probabilities: practical equivalence, CV superiority, and MV superiority. We also evaluated the differences in the capacity of the selected models and computational efficiency. We found that both MV and CV select models with practically equivalent generalization performance across various machine learning algorithms and the majority of benchmark datasets. MV exhibited advantages in terms of selecting simpler models and lower computational costs. However, in some cases MV selected overly simplistic models leading to underfitting and showed instability in hyperparameter selection. These limitations of MV became more evident in the evaluation of a real-world neuroscientific task of predicting sex at birth using brain functional connectivity.
翻訳日:2024-02-16 18:55:33 公開日:2024-02-15
# モデルマーケットプレースをモデレーションする - AI仲介者のためのプラットフォームガバナンスのパズル

Moderating Model Marketplaces: Platform Governance Puzzles for AI Intermediaries ( http://arxiv.org/abs/2311.12573v2 )

ライセンス: Link先を確認
Robert Gorwa and Michael Veale(参考訳) AI開発コミュニティは、Hugging Faceのようなホスティング仲介サービスを利用して、ユーザのアップロードしたモデルやトレーニングデータへのアクセスを容易にしている。 これらのモデルマーケットプレースは、数十万人のユーザの技術的なデプロイメント障壁を低くするが、潜在的に有害で違法な多くの方法で使用できる。 本稿では、コンテンツとオープンなツールの両方を‘保持’できるAIシステムが、これまで見てきた最もトリッキーなプラットフォームガバナンスの課題の1つを提示する方法について説明する。 Hugging Face、GitHub、Civitaiの3つのプラットフォームにまたがるいくつかのインシデントについてケーススタディを行い、モデルマーケットプレースが適度なモデルをどのように扱うかを調べた。 この分析に基づいて、私たちは、ライセンス、アクセスおよび使用制限、自動コンテンツモデレーション、オープンポリシー開発といった、業界がモデレーション要求に対応するために開発してきた重要な(しかしながら限定的な)プラクティスを概説します。 手元にある政策課題は相当なものであるが、我々はプラットフォームが慎重に公平かつ比例的な規制アクセスポイントとして機能するために、リソースをよりよく動員できるかについて、いくつかのアイデアで締めくくっている。

The AI development community is increasingly making use of hosting intermediaries such as Hugging Face provide easy access to user-uploaded models and training data. These model marketplaces lower technical deployment barriers for hundreds of thousands of users, yet can be used in numerous potentially harmful and illegal ways. In this article, we explain ways in which AI systems, which can both `contain' content and be open-ended tools, present one of the trickiest platform governance challenges seen to date. We provide case studies of several incidents across three illustrative platforms -- Hugging Face, GitHub and Civitai -- to examine how model marketplaces moderate models. Building on this analysis, we outline important (and yet nevertheless limited) practices that industry has been developing to respond to moderation demands: licensing, access and use restrictions, automated content moderation, and open policy development. While the policy challenge at hand is a considerable one, we conclude with some ideas as to how platforms could better mobilize resources to act as a careful, fair, and proportionate regulatory access point.
翻訳日:2024-02-16 18:55:17 公開日:2024-02-15
# 因果機構の類似性に基づく階層モデルによるメタラーニング

Meta-Learning With Hierarchical Models Based on Similarity of Causal Mechanisms ( http://arxiv.org/abs/2310.12595v2 )

ライセンス: Link先を確認
Sophie Wharrie, Samuel Kaski(参考訳) この作業では、関連するタスクからのデータセットが観測され、それぞれが異なる因果メカニズムによって生成され、テストデータセットは同じタスク分布から得られる、非ID環境で、新しいデータに一般化することが目標である。 このセットアップはパーソナライズドメディカルによって動機付けられており、患者はタスクであり、複雑な疾患は原因と進行において患者間で異質である。 難しいのは、あるタスクに因果的メカニズムを特定するのに十分なデータが存在しないことであり、そのメカニズムが同じでない限り、メタラーニングが何らかの方法で行うタスクにまたがるデータのプールは、テスト設定が制御不能に異なる場合の予測を悪化させる可能性がある。 本稿では,データセット全体からタスクの適切な埋め込みを学習することにより,タスクの因果メカニズムの類似性の指標であるベイズ階層モデルとして定式化したメタラーニングを提案する。 この埋め込みは、階層モデルでどのタスクをプールすべきかを評価する補助データとして使用される。 本研究では,3つの健康関連ケーススタディにおいて,このようなプーリングによって予測が向上し,シミュレーションデータに対する感度解析により,プールに類似した因果的機構を持つタスクを限定されたデータ設定でも識別し,介入データを活用することで汎用性を向上させることを示す。

In this work the goal is to generalise to new data in a non-iid setting where datasets from related tasks are observed, each generated by a different causal mechanism, and the test dataset comes from the same task distribution. This setup is motivated by personalised medicine, where a patient is a task and complex diseases are heterogeneous across patients in cause and progression. The difficulty is that there usually is not enough data in one task to identify the causal mechanism, and unless the mechanisms are the same, pooling data across tasks, which meta-learning does one way or the other, may lead to worse predictors when the test setting may be uncontrollably different. In this paper we introduce to meta-learning, formulated as Bayesian hierarchical modelling, a proxy measure of similarity of the causal mechanisms of tasks, by learning a suitable embedding of the tasks from the whole data set. This embedding is used as auxiliary data for assessing which tasks should be pooled in the hierarchical model. We show that such pooling improves predictions in three health-related case studies, and by sensitivity analyses on simulated data that the method aids generalisability by utilising interventional data to identify tasks with similar causal mechanisms for pooling, even in limited data settings.
翻訳日:2024-02-16 18:54:54 公開日:2024-02-15
# 領域外非ラベルデータによる一般化改善

Out-Of-Domain Unlabeled Data Improves Generalization ( http://arxiv.org/abs/2310.00027v2 )

ライセンス: Link先を確認
Amir Hossein Saberi, Amir Najafi, Alireza Heidari, Mohammad Hosein Movasaghinia, Abolfazl Motahari, Babak H. Khalaj(参考訳) 我々は,ラベルなしデータを半教師付き分類問題に組み込むための新しい枠組みを提案する。 一 反対に頑丈であること、又は 二 非ロバスト損失関数が検討されていること。 特筆すべきは、ラベルのないサンプルがドメイン内分布からわずかに(完全な変動意味で)外れることである。 私たちのフレームワークの中核となる考え方は、分散ロバスト最適化(DRO)と自己教師型トレーニングを組み合わせることです。 また,学習段階における効率的な多項式時間アルゴリズムも活用する。 理論的な観点から、我々は2つのガウスの混合の分類問題を$\mathbb{R}^d$に適用し、真分布からの$m$独立およびラベル付きサンプルに加えて、ドメインから$n$(通常$n\gg m$)の集合が与えられ、ラベルなしサンプルも与えられる。 ラベル付きデータのみを用いることで、一般化誤差は$\propto\left(d/m\right)^{1/2}$で境界付けられることが知られている。 しかし, 等方的および非等方的なガウス混合モデルを用いて, ERMと比較して一般化誤差を大幅に改善した解析的および非漸近的境界の新たな集合を導出することができる。 私たちの結果は2つの重要な洞察を裏付けています。 1) 真のデータ分布が ``cluster assumption" の形式に準拠している場合,ラベルを付けていない場合でも,領域外サンプルは一般化ギャップを狭めるために利用することができる。 2) 半教師付き学習パラダイムは, 分散シフトがない場合に, フレームワークの特別なケースとみなすことができる。 我々は,様々な合成データと実世界のデータセットで実施した実験を通じて,クレームを検証する。

We propose a novel framework for incorporating unlabeled data into semi-supervised classification problems, where scenarios involving the minimization of either i) adversarially robust or ii) non-robust loss functions have been considered. Notably, we allow the unlabeled samples to deviate slightly (in total variation sense) from the in-domain distribution. The core idea behind our framework is to combine Distributionally Robust Optimization (DRO) with self-supervised training. As a result, we also leverage efficient polynomial-time algorithms for the training stage. From a theoretical standpoint, we apply our framework on the classification problem of a mixture of two Gaussians in $\mathbb{R}^d$, where in addition to the $m$ independent and labeled samples from the true distribution, a set of $n$ (usually with $n\gg m$) out of domain and unlabeled samples are given as well. Using only the labeled data, it is known that the generalization error can be bounded by $\propto\left(d/m\right)^{1/2}$. However, using our method on both isotropic and non-isotropic Gaussian mixture models, one can derive a new set of analytically explicit and non-asymptotic bounds which show substantial improvement on the generalization error compared to ERM. Our results underscore two significant insights: 1) out-of-domain samples, even when unlabeled, can be harnessed to narrow the generalization gap, provided that the true data distribution adheres to a form of the ``cluster assumption", and 2) the semi-supervised learning paradigm can be regarded as a special case of our framework when there are no distributional shifts. We validate our claims through experiments conducted on a variety of synthetic and real-world datasets.
翻訳日:2024-02-16 18:54:30 公開日:2024-02-15
# ラベル学習における階層正規化の役割の理解

Understanding the Role of Layer Normalization in Label-Skewed Federated Learning ( http://arxiv.org/abs/2308.09565v2 )

ライセンス: Link先を確認
Guojun Zhang, Mahdi Beitollahi, Alex Bie, Xi Chen(参考訳) 階層正規化(Layer normalization, LN)は、特に基礎モデルの時代に広く採用されているディープラーニング技術である。 近年、LNは非i.d.データを用いた連邦学習(FL)において驚くほど効果的であることが示されている。 しかし、その理由と仕組みは謎のままである。 本研究では,連合学習における階層正規化とラベルシフト問題との深い関係を明らかにする。 FLにおける層正規化をよりよく理解するために,特徴正規化(FN)と呼ばれるFLにおける正規化手法の鍵となる寄与機構を同定する。 ln と fn は表現力は向上しないが、特徴の崩壊と局所的なオーバーフィットを非常に歪んだデータセットに制御し、グローバルなトレーニングを加速する。 実験により,正規化が極端ラベルシフトの下での標準ベンチマークの大幅な改善につながることを示す。 さらに,flの層正規化の重要な要因を理解するため,広範囲なアブレーション研究を行った。 この結果から,fn は ln 内部において,学習率選択に頑健なまま fl の収束性を大幅に向上させる上で不可欠な要素であることを確認した。 我々のコードは \url{https://github.com/huawei-noah/Federated-Learning/tree/main/Layer_Normalization} で利用可能です。

Layer normalization (LN) is a widely adopted deep learning technique especially in the era of foundation models. Recently, LN has been shown to be surprisingly effective in federated learning (FL) with non-i.i.d. data. However, exactly why and how it works remains mysterious. In this work, we reveal the profound connection between layer normalization and the label shift problem in federated learning. To understand layer normalization better in FL, we identify the key contributing mechanism of normalization methods in FL, called feature normalization (FN), which applies normalization to the latent feature representation before the classifier head. Although LN and FN do not improve expressive power, they control feature collapse and local overfitting to heavily skewed datasets, and thus accelerates global training. Empirically, we show that normalization leads to drastic improvements on standard benchmarks under extreme label shift. Moreover, we conduct extensive ablation studies to understand the critical factors of layer normalization in FL. Our results verify that FN is an essential ingredient inside LN to significantly improve the convergence of FL while remaining robust to learning rate choices, especially under extreme label shift where each client has access to few classes. Our code is available at \url{https://github.com/huawei-noah/Federated-Learning/tree/main/Layer_Normalization}.
翻訳日:2024-02-16 18:53:01 公開日:2024-02-15
# 非定常性に対するロバスト性を有する線形帯域のA/B試験とベストアーム同定

A/B Testing and Best-arm Identification for Linear Bandits with Robustness to Non-stationarity ( http://arxiv.org/abs/2307.15154v2 )

ライセンス: Link先を確認
Zhihan Xiong, Romain Camilleri, Maryam Fazel, Lalit Jain, Kevin Jamieson(参考訳) 非定常環境下での線形包帯に対する固定予算ベストアーム識別(BAI)問題について検討する。 有限腕集合 $\mathcal{X}\subset\mathbb{R}^d$ と固定予算 $T$ とパラメータの予測不可能な列 $\left\lbrace\theta_t\right\rbrace_{t=1}^{T}$ が与えられたとき、アルゴリズムは可能な限り高い確率で最良のアーム $x^* := \arg\max_{x\in\mathcal{X}}x^\top\sum_{t=1}^{T}\theta_t$ を正しく識別する。 以前の研究では、すべての$t$に対して$\theta_t = \theta_1$ という定常設定に対処し、問題依存定数 $\rho^*$ に対して$\exp(-t /\rho^*)$ でエラー確率が減少することを示した。 しかし、私たちの仕事の動機となる多くの現実世界の$a/b/n$多変量テストシナリオでは、環境は不安定であり、定常設定を期待するアルゴリズムは簡単に失敗する可能性がある。 堅牢な識別のために、もし腕を$\mathcal{X}$よりもG最適設計からランダムに非適応に選択すると、誤差確率は$\exp(-T\Delta^2_{(1)}/d)$と減少し、$\Delta_{(1)} = \min_{x \neq x^*} (x^*x)^\top \frac{1}{T}\sum_{t=1}^T \theta_t$となることが知られている。 例えば、$\Delta_{(1)}^2/ d \ll 1/ \rho^*$ という環境が存在するため、我々は、良性設定における非定常性に対する堅牢性と識別の速さという両方の世界の長所を得るための新しいアルゴリズム $\mathsf{P1}$-$\mathsf{RAGE}$ を提案する動機付けがある。 我々は、$\mathsf{p1}$-$\mathsf{rage}$の誤差確率を特徴付け、このアルゴリズムがg-optimal設計よりも決して悪くなることはないが、定常設定の最良のアルゴリズムと比較すると実証的に証明する。

We investigate the fixed-budget best-arm identification (BAI) problem for linear bandits in a potentially non-stationary environment. Given a finite arm set $\mathcal{X}\subset\mathbb{R}^d$, a fixed budget $T$, and an unpredictable sequence of parameters $\left\lbrace\theta_t\right\rbrace_{t=1}^{T}$, an algorithm will aim to correctly identify the best arm $x^* := \arg\max_{x\in\mathcal{X}}x^\top\sum_{t=1}^{T}\theta_t$ with probability as high as possible. Prior work has addressed the stationary setting where $\theta_t = \theta_1$ for all $t$ and demonstrated that the error probability decreases as $\exp(-T /\rho^*)$ for a problem-dependent constant $\rho^*$. But in many real-world $A/B/n$ multivariate testing scenarios that motivate our work, the environment is non-stationary and an algorithm expecting a stationary setting can easily fail. For robust identification, it is well-known that if arms are chosen randomly and non-adaptively from a G-optimal design over $\mathcal{X}$ at each time then the error probability decreases as $\exp(-T\Delta^2_{(1)}/d)$, where $\Delta_{(1)} = \min_{x \neq x^*} (x^* - x)^\top \frac{1}{T}\sum_{t=1}^T \theta_t$. As there exist environments where $\Delta_{(1)}^2/ d \ll 1/ \rho^*$, we are motivated to propose a novel algorithm $\mathsf{P1}$-$\mathsf{RAGE}$ that aims to obtain the best of both worlds: robustness to non-stationarity and fast rates of identification in benign settings. We characterize the error probability of $\mathsf{P1}$-$\mathsf{RAGE}$ and demonstrate empirically that the algorithm indeed never performs worse than G-optimal design but compares favorably to the best algorithms in the stationary setting.
翻訳日:2024-02-16 18:52:34 公開日:2024-02-15
# ODD: NLPに基づくオピオイド関連異常検出のためのベンチマークデータセット

ODD: A Benchmark Dataset for the NLP-based Opioid Related Aberrant Behavior Detection ( http://arxiv.org/abs/2307.02591v3 )

ライセンス: Link先を確認
Sunjae Kwon, Xun Wang, Weisong Liu, Emily Druhl, Minhee L. Sung, Joel I. Reisman, Wenjun Li, Robert D. Kerns, William Becker, Hong Yu(参考訳) オピオイド関連異常行動(ORAB)はオピオイド過剰摂取の新しい危険因子である。 本稿では,ORAB 検出データセットのためのバイオメディカル自然言語処理ベンチマークである ODD を提案する。 ODDは、患者のEHRノートからORABを識別し、それらを9つのカテゴリに分類する専門家アノテーション付きデータセットである。 1)確認された異常行動 2)異常行為を示唆する。 3)オピオイド, 4) 表示。 5)オピオイド依存性の診断。 6)ベンゾジアゼピン類。 7) 薬効の変化。 8)中枢神経系関連、及び 9) 健康の社会的決定要因。 orabを識別するために,2つの最先端自然言語処理モデル(微調整法とプロンプトチューニング法)を検討した。 実験結果から, 早期調整モデルは, ほとんどのカテゴリーにおいて細調整モデルよりも優れており, 特に異常なカテゴリー(推奨異常行動, 確認異常行動, 診断オピオイド依存度, 服薬変化)では上昇率が高かった。 最良のモデルは、精密リコール曲線の下でマクロ平均面積で88.17\%の最高値を達成したが、稀なクラスは依然として性能改善の余地が大きい。 ODDは公開されている。

Opioid related aberrant behaviors (ORABs) present novel risk factors for opioid overdose. This paper introduces a novel biomedical natural language processing benchmark dataset named ODD, for ORAB Detection Dataset. ODD is an expert-annotated dataset designed to identify ORABs from patients' EHR notes and classify them into nine categories; 1) Confirmed Aberrant Behavior, 2) Suggested Aberrant Behavior, 3) Opioids, 4) Indication, 5) Diagnosed opioid dependency, 6) Benzodiazepines, 7) Medication Changes, 8) Central Nervous System-related, and 9) Social Determinants of Health. We explored two state-of-the-art natural language processing models (fine-tuning and prompt-tuning approaches) to identify ORAB. Experimental results show that the prompt-tuning models outperformed the fine-tuning models in most cateogories and the gains were especially higher among uncommon categories (Suggested Aberrant Behavior, Confirmed Aberrant Behaviors, Diagnosed Opioid Dependence, and Medication Change). Although the best model achieved the highest 88.17\% on macro average area under precision recall curve, uncommon classes still have a large room for performance improvement. ODD is publicly available.
翻訳日:2024-02-16 18:51:35 公開日:2024-02-15
# 生成モデルのための逐次流れのストレート化

Sequential Flow Straightening for Generative Modeling ( http://arxiv.org/abs/2402.06461v2 )

ライセンス: Link先を確認
Jongmin Yoon, and Juho Lee(参考訳) 拡散モデルやフローベースモデルといった連続時間生成モデルの確率フローの直線化は、数値解法を通した高速サンプリングの鍵であり、既存の手法ではノイズとデータ分布のジョイント分布の確率経路を直接生成して線形経路を学習する。 これらの生成モデルをシミュレートするODEベースのソルバのサンプリング速度が遅い理由の1つは、ODEトラジェクトリの高曲率に起因するODEソルバの大域的乱れ誤差であり、低NFE系における数値ソルバの乱れ誤差を爆発させる。 そこで本研究では,この課題に対処するために,確率フローをストレート化して大域的切断誤差を低減し,サンプリングの高速化と合成品質の向上を可能にする学習手法であるseqrfを提案する。 理論的および実証的研究の両方において、まずSeqRFのストレート化特性を観察する。 CIFAR-10, CelebA-$64 \times 64$, LSUN-Churchデータセットにおいて, フローベース生成モデルに対するSeqRFによる経験的評価により, 計算結果の超過を実現した。

Straightening the probability flow of the continuous-time generative models, such as diffusion models or flow-based models, is the key to fast sampling through the numerical solvers, existing methods learn a linear path by directly generating the probability path the joint distribution between the noise and data distribution. One key reason for the slow sampling speed of the ODE-based solvers that simulate these generative models is the global truncation error of the ODE solver, caused by the high curvature of the ODE trajectory, which explodes the truncation error of the numerical solvers in the low-NFE regime. To address this challenge, We propose a novel method called SeqRF, a learning technique that straightens the probability flow to reduce the global truncation error and hence enable acceleration of sampling and improve the synthesis quality. In both theoretical and empirical studies, we first observe the straightening property of our SeqRF. Through empirical evaluations via SeqRF over flow-based generative models, We achieve surpassing results on CIFAR-10, CelebA-$64 \times 64$, and LSUN-Church datasets.
翻訳日:2024-02-16 18:42:47 公開日:2024-02-15
# gpt-4vにおける視覚文化認識の探求 : 包括的調査

Exploring Visual Culture Awareness in GPT-4V: A Comprehensive Probing ( http://arxiv.org/abs/2402.06015v2 )

ライセンス: Link先を確認
Yong Cao, Wenyan Li, Jiaang Li, Yifei Yuan, Antonia Karamolegkou, Daniel Hershcovich(参考訳) 事前訓練された大型視覚言語モデルは、その顕著な性能のために近年かなりの関心を集めている。 様々な視点からこれらのモデルを評価するためのかなりの努力にもかかわらず、最先端のGPT-4Vモデルにおける視覚的文化的認識の程度は未解明のままである。 このギャップに対処するため,我々はMARVLベンチマークデータセットを用いてGPT-4Vを広範囲に探索し,文化的側面に着目した視覚的理解の能力と限界について検討した。 具体的には,字幕分類,ペアワイズ字幕分類,文化タグ選択という3つの視覚関連課題を導入し,詳細な視文化評価を体系的に検討した。 実験結果から, GPT-4Vは文化的概念の同定に優れ, タミル語やスワヒリ語などの低リソース言語では依然として弱い性能を示した。 特に人間の評価によって、GPT-4VはオリジナルのMARVLの人間のアノテーションよりもイメージキャプションタスクに文化的に関係があることが証明され、将来のビジュアルカルチャーベンチマーク構築のための有望な解決策が示唆された。

Pretrained large Vision-Language models have drawn considerable interest in recent years due to their remarkable performance. Despite considerable efforts to assess these models from diverse perspectives, the extent of visual cultural awareness in the state-of-the-art GPT-4V model remains unexplored. To tackle this gap, we extensively probed GPT-4V using the MaRVL benchmark dataset, aiming to investigate its capabilities and limitations in visual understanding with a focus on cultural aspects. Specifically, we introduced three visual related tasks, i.e. caption classification, pairwise captioning, and culture tag selection, to systematically delve into fine-grained visual cultural evaluation. Experimental results indicate that GPT-4V excels at identifying cultural concepts but still exhibits weaker performance in low-resource languages, such as Tamil and Swahili. Notably, through human evaluation, GPT-4V proves to be more culturally relevant in image captioning tasks than the original MaRVL human annotations, suggesting a promising solution for future visual cultural benchmark construction.
翻訳日:2024-02-16 18:42:25 公開日:2024-02-15
# NoisyICL: 文脈内学習を校正するモデルパラメータの小さなノイズ

NoisyICL: A Little Noise in Model Parameters Calibrates In-context Learning ( http://arxiv.org/abs/2402.05515v2 )

ライセンス: Link先を確認
Yufeng Zhao, Yoshihiro Sakai, Naoya Inoue(参考訳) In-Context Learning(ICL)は、事前バイアスが高く、不信感があるため、不満足なパフォーマンスと過小評価に悩まされている。 以前のいくつかの作業では、膨大なデータセットと計算コストでICLのパフォーマンスを改善するための言語モデルを微調整していた。 本稿では,モデルパラメータをランダムノイズで摂動させ,より優れた性能とキャリブレーションを実現するノイズICLを提案する。 2つのモデルと12のダウンストリームデータセットに関する実験では、ノイズiclがより正確な予測に役立ちます。 さらなる分析から,このモデルにより,より公平な予測が可能となり,信頼性も高まることが示唆された。 そこで我々は,NoisyICLはICLの効果的な校正法であると考えている。 実験コードはgithubにアップロードされます。

In-Context Learning (ICL) is suffering from unsatisfactory performance and under-calibration due to high prior bias and unfaithful confidence. Some previous works fine-tuned language models for better ICL performance with enormous datasets and computing costs. In this paper, we propose NoisyICL, simply perturbing the model parameters by random noises to strive for better performance and calibration. Our experiments on two models and 12 downstream datasets show that NoisyICL can help ICL produce more accurate predictions. Our further analysis indicates that NoisyICL enables the model to provide more fair predictions, and also with more faithful confidence. Therefore, we believe that NoisyICL is an effective calibration of ICL. Our experimental code is uploaded to Github.
翻訳日:2024-02-16 18:42:06 公開日:2024-02-15
# L4Q: LoRA-wise LSQを用いた大規模言語モデルのパラメータ効率的な量子化学習

L4Q: Parameter Efficient Quantization-Aware Training on Large Language Models via LoRA-wise LSQ ( http://arxiv.org/abs/2402.04902v2 )

ライセンス: Link先を確認
Hyesung Jeon, Yulhwa Kim, Jae-joon Kim(参考訳) 学習後量子化(PTQ)と量子化対応学習(QAT)法は,大規模言語モデル(LLM)に関連する高メモリと計算コストの軽減で人気を集めている。 リソース制約のあるシナリオでは、PTQはトレーニングのオーバーヘッドを減らし、QATよりも好まれる。 一方、低ランク適応(LoRA)のようなパラメータ効率細調整(PEFT)手法を導入し、近年、量子化対応PEFT技術について検討している。 しかし、これらのアプローチは、事前量子化モデルの構成に依存するため、一般性に欠ける可能性がある。 それらの効果は非線形量子化または混合精度の重みによって損なわれ、特定の量子化パラメータの再学習は最適な性能を阻害する可能性がある。 これらの課題に対処するため,パラメータ効率を考慮した量子化学習アルゴリズムL4Qを提案する。 L4Q は LLM に対して LoRA で学習した量子化ステップサイズを活用する。 L4Qの同時量子化・微調整プロセスは高精度なモデルに適用でき、より精度のよい線形量子化重みが得られる。 命令データセットを用いてLLaMAとLLaMA2モデルファミリを用いて実験を行い、L4Qの言語理解能力と文脈内学習能力を示し、量子化モデルにPEFTを適用するための訓練時間を維持しながら、サブ4ビット精度を実現した。

Post-training quantization (PTQ) and quantization-aware training (QAT) methods are gaining popularity in mitigating the high memory and computational costs associated with Large Language Models (LLMs). In resource-constrained scenarios, PTQ, with its reduced training overhead, is often preferred over QAT, despite the latter's potential for higher accuracy. Meanwhile, parameter-efficient fine-tuning (PEFT) methods like low-rank adaptation (LoRA) have been introduced, and recent efforts have explored quantization-aware PEFT techniques. However, these approaches may lack generality due to their reliance on the pre-quantized model's configuration. Their effectiveness may be compromised by non-linearly quantized or mixed-precision weights, and the retraining of specific quantization parameters might impede optimal performance. To address these challenges, we propose L4Q, an algorithm for parameter-efficient quantization-aware training. L4Q leverages LoRA-wise learned quantization step size for LLMs, aiming to enhance generality. The simultaneous quantization-and-fine-tuning process of L4Q is applicable to high-precision models, yielding linearly quantized weights with superior accuracy. Our experiments, conducted on the LLaMA and LLaMA2 model families using an instructional dataset, showcase L4Q's capabilities in language comprehension and few-shot in-context learning, achieving sub-4-bit precision while maintaining comparable training times to applying PEFT on a quantized model.
翻訳日:2024-02-16 18:41:54 公開日:2024-02-15
# 勧告の両面公正性

Intersectional Two-sided Fairness in Recommendation ( http://arxiv.org/abs/2402.02816v2 )

ライセンス: Link先を確認
Yifan Wang, Peijie Sun, Weizhi Ma, Min Zhang, Yuan Zhang, Peng Jiang, Shaoping Ma(参考訳) 推薦システム(RS)の公正性は近年注目を集めている。 関係する利害関係者に基づいて、RSの公平性は、ユーザフェアネス、アイテムフェアネス、およびユーザフェアネスとアイテムフェアネスの両方を同時に考慮する両側フェアネスに分けられる。 しかし,本論文における実世界データに関する実証的研究により,RSが両面公正であっても,交差する二面不公平性は依然として存在すると論じる。 この問題を軽減するため,我々は交叉2面フェアネスレコメンデーション(itfr)と呼ばれる新しいアプローチを提案する。 本手法は,不利なグループを知覚するためにシャープネス認識損失を利用し,協調的損失バランスを用いて異なる交叉群に対して一貫した識別能力を開発する。 さらに、予測スコア正規化を利用して、正の予測スコアを異なる交叉群で相当に評価する。 3つの公開データセットの大規模な実験と分析により,提案手法は両面の不公平性を効果的に軽減し,従来の最先端手法を一貫して上回ることを示す。

Fairness of recommender systems (RS) has attracted increasing attention recently. Based on the involved stakeholders, the fairness of RS can be divided into user fairness, item fairness, and two-sided fairness which considers both user and item fairness simultaneously. However, we argue that the intersectional two-sided unfairness may still exist even if the RS is two-sided fair, which is observed and shown by empirical studies on real-world data in this paper, and has not been well-studied previously. To mitigate this problem, we propose a novel approach called Intersectional Two-sided Fairness Recommendation (ITFR). Our method utilizes a sharpness-aware loss to perceive disadvantaged groups, and then uses collaborative loss balance to develop consistent distinguishing abilities for different intersectional groups. Additionally, predicted score normalization is leveraged to align positive predicted scores to fairly treat positives in different intersectional groups. Extensive experiments and analyses on three public datasets show that our proposed approach effectively alleviates the intersectional two-sided unfairness and consistently outperforms previous state-of-the-art methods.
翻訳日:2024-02-16 18:40:55 公開日:2024-02-15
# EffiBench: 自動生成コードの効率をベンチマークする

EffiBench: Benchmarking the Efficiency of Automatically Generated Code ( http://arxiv.org/abs/2402.02037v2 )

ライセンス: Link先を確認
Dong Huang, Jie M.Zhang, Yuhao Qing, Heming Cui(参考訳) コード生成モデルは、コード補完、デバッギング、コード翻訳といったタスクを支援することで、ソフトウェア開発を支援するためにますます不可欠なものになっています。 現在の研究では、コード生成モデルによって生成されるコードの正確性について徹底的に検討されているが、重要な側面、すなわち生成されたコードの効率性はしばしば無視されている。 本稿では,コード生成モデルが生成するコード効率を評価するために,1000の効率クリティカルなコーディング問題を持つベンチマークeffibenchを提案する。 EffiBenchにはさまざまなLeetCodeコーディング問題が含まれている。 各問題は実行可能な人間による正準解とペアリングされる。 EffiBenchでは、効率的なコードを生成する上で、21の大規模言語モデル(13のオープンソースと8のクローズドソース)の能力を実証的に検証する。 その結果, GPT-4-turboはPalm-2-chat-bison, Claude-instant-1, Gemini-pro, GPT-4, GPT-3.5を著しく上回った。 それでも、そのコード効率は、人間の書いた正準ソリューションの効率よりも悪い。 特に、GPT-4-turbo生成コードの平均実行時間は、標準解の1.69倍と45.49倍である。

Code generation models have increasingly become integral to aiding software development, offering assistance in tasks such as code completion, debugging, and code translation. Although current research has thoroughly examined the correctness of code produced by code generation models, a vital aspect, i.e., the efficiency of the generated code, has often been neglected. This paper presents EffiBench, a benchmark with 1,000 efficiency-critical coding problems for assessing the efficiency of code generated by code generation models. EffiBench contains a diverse set of LeetCode coding problems. Each problem is paired with an executable human-written canonical solution. With EffiBench, we empirically examine the capability of 21 Large Language Models (13 open-sourced and 8 closed-sourced) in generating efficient code. The results demonstrate that GPT-4-turbo generates the most efficient code, significantly outperforming Palm-2-chat-bison, Claude-instant-1, Gemini-pro, GPT-4, and GPT-3.5. Nevertheless, its code efficiency is still worse than the efficiency of human-written canonical solutions. In particular, the average and worst execution time of GPT-4-turbo generated code is 1.69 and 45.49 times that of the canonical solutions.
翻訳日:2024-02-16 18:40:28 公開日:2024-02-15
# SWEA:主語埋め込みによる大規模言語モデルにおけるファクチュアル知識の変化

SWEA: Changing Factual Knowledge in Large Language Models via Subject Word Embedding Altering ( http://arxiv.org/abs/2401.17809v2 )

ライセンス: Link先を確認
Xiaopeng Li, Shasha Li, Shezheng Song, Huijun Liu, Bin Ji, Xi Wang, Jun Ma, Jie Yu, Xiaodong Liu, Jing Wang and Weimin Zhang(参考訳) モデル編集は近年広く注目を集めている。 現在のモデル編集方法は、主にモデルパラメータの変更や既存のモデルに追加モジュールの追加を含む。 しかし、前者は大きな言語モデル(LLM)に不可逆的なダメージを与えるが、後者は追加の推論オーバーヘッドを発生させ、ファジィベクトルマッチングは必ずしも信頼できない。 これらの課題に対処するために,文字レベルのキー値マッチングによる融合埋め込みを発見し,Transformer 入力の主語埋め込みに追加する,拡張可能な主語埋め込み変換(SWEA)フレームワークを提案する。 これらの融合埋め込みを実現するために,まず学習可能な埋め込みベクトルを編集対象に最適化し,次に知識埋め込み次元(KED)を抑圧して最終的な融合埋め込みを得る融合手法の最適化と抑制を提案する。 そこで我々は,LSMにおける事実知識を編集するためのSWEA$\oplus$OS法を提案する。 SWEA$\oplus$OSのCOUNTERFACTおよびzsREデータセット上でのSOTA(State-of-the-art)パフォーマンスを実証する。 SWEA$\oplus$OSの編集知識の推論能力をさらに検証するため,より複雑なRippleEditsベンチマークで評価を行った。 その結果,SWEA$\oplus$OSはSOTA推論能力を有することが示された。

Model editing has recently gained widespread attention. Current model editing methods primarily involve modifying model parameters or adding additional modules to the existing model. However, the former causes irreversible damage to Large Language Models (LLMs), while the latter incurs additional inference overhead and fuzzy vector matching is not always reliable. To address these issues, we propose an expandable Subject Word Embedding Altering (SWEA) framework, which finds the fused embeddings through character-level key-value matching and adds them to the subject word embeddings in Transformer input. To get these fused embeddings, we propose optimizing then suppressing fusion method, which first optimizes learnable embedding vectors for the editing target and then suppresses the Knowledge Embedding Dimensions (KEDs) to obtain final fused embeddings. We thus propose SWEA$\oplus$OS method for editing factual knowledge in LLMs. We demonstrate the overall state-of-the-art (SOTA) performance of SWEA$\oplus$OS on the COUNTERFACT and zsRE datasets. To further validate the reasoning ability of SWEA$\oplus$OS in editing knowledge, we evaluate it on the more complex RippleEdits benchmark. The results demonstrate that SWEA$\oplus$OS possesses SOTA reasoning ability.
翻訳日:2024-02-16 18:40:07 公開日:2024-02-15
# 大規模言語モデルの自己説明は忠実か?

Are self-explanations from Large Language Models faithful? ( http://arxiv.org/abs/2401.07927v3 )

ライセンス: Link先を確認
Andreas Madsen, Sarath Chandar, Siva Reddy(参考訳) LLM(Instruction-tuned Large Language Models)は、多くのタスクを抽出し、その推論、いわゆる自己説明を説明する。 しかし、説得力と誤った自己説明はllmに対する信頼を防ぎ、リスクを増大させる可能性がある。 したがって、自己説明がモデルの振る舞いを本当に反映しているかを測定することが重要です。 このような測度は解釈可能性(interpretability-faithfulness)と呼ばれ、基底真理が到達不能であるため実行が困難であり、多くのLCMは推論APIしか持たない。 そこで本稿では,信頼度を測定するための自己整合性チェックを提案する。 例えば、llmが単語の集合が予測を行うのに重要であると言うなら、これらの単語なしでその単語を予測することはできないはずである。 自己整合性チェックは、忠実性に対する一般的なアプローチであるが、以前は、反現実性、重要度、リアクションの説明のためのLSM自己説明にうまく適用されなかった。 本研究は,自己説明が一般に信頼されてはならないことを示す,説明,モデル,タスク依存であることを示す。 例えば、感情分類では、反事実はLlama2、Mistralの重要度、Falcon 40Bの再作用に忠実である。

Instruction-tuned Large Language Models (LLMs) excel at many tasks and will even explain their reasoning, so-called self-explanations. However, convincing and wrong self-explanations can lead to unsupported confidence in LLMs, thus increasing risk. Therefore, it's important to measure if self-explanations truly reflect the model's behavior. Such a measure is called interpretability-faithfulness and is challenging to perform since the ground truth is inaccessible, and many LLMs only have an inference API. To address this, we propose employing self-consistency checks to measure faithfulness. For example, if an LLM says a set of words is important for making a prediction, then it should not be able to make its prediction without these words. While self-consistency checks are a common approach to faithfulness, they have not previously been successfully applied to LLM self-explanations for counterfactual, importance measure, and redaction explanations. Our results demonstrate that faithfulness is explanation, model, and task-dependent, showing self-explanations should not be trusted in general. For example, with sentiment classification, counterfactuals are more faithful for Llama2, importance measures for Mistral, and redaction for Falcon 40B.
翻訳日:2024-02-16 18:39:44 公開日:2024-02-15
# 自己組織化マップにおけるトポロジ的投影を用いた最小教師付き学習

Minimally Supervised Learning using Topological Projections in Self-Organizing Maps ( http://arxiv.org/abs/2401.06923v2 )

ライセンス: Link先を確認
Zimeng Lyu, Alexander Ororbia, Rui Li, Travis Desell(参考訳) パラメータ予測は多くのアプリケーションに必須であり、洞察力のある解釈と意思決定を容易にする。 しかし、電力システム、医学、工学などの多くの実生活領域では、広範囲で高価な実験室テストを必要とするため、特定のデータセットの真理ラベルを取得するのは非常に高価である。 本研究では,自己組織マップ(soms)における位相射影に基づく半教師付き学習手法を導入し,ラベル付きデータポイントのパラメータ予測に必要な数を大幅に削減し,大きなラベル付きデータセットに含まれる情報を有効に活用する。 提案手法は、まずラベル付きデータ上でSOMを訓練し、次にキーベストマッチングユニット(BMU)に最小限のラベル付きデータポイントを割り当てる。 新たに列挙されたデータポイントについて推定した値は、位相的最短経路距離計算法を用いて、SOMのU行列における$n$近いラベル付きデータポイントの平均を用いて計算される。 提案手法は,線形回帰や多項式回帰,ガウス過程回帰,K-アネレスト近傍,深層ニューラルネットワークモデルおよび関連するクラスタリングスキームなど,従来の回帰手法よりも優れていることを示す。

Parameter prediction is essential for many applications, facilitating insightful interpretation and decision-making. However, in many real life domains, such as power systems, medicine, and engineering, it can be very expensive to acquire ground truth labels for certain datasets as they may require extensive and expensive laboratory testing. In this work, we introduce a semi-supervised learning approach based on topological projections in self-organizing maps (SOMs), which significantly reduces the required number of labeled data points to perform parameter prediction, effectively exploiting information contained in large unlabeled datasets. Our proposed method first trains SOMs on unlabeled data and then a minimal number of available labeled data points are assigned to key best matching units (BMU). The values estimated for newly-encountered data points are computed utilizing the average of the $n$ closest labeled data points in the SOM's U-matrix in tandem with a topological shortest path distance calculation scheme. Our results indicate that the proposed minimally supervised model significantly outperforms traditional regression techniques, including linear and polynomial regression, Gaussian process regression, K-nearest neighbors, as well as deep neural network models and related clustering schemes.
翻訳日:2024-02-16 18:39:24 公開日:2024-02-15
# 言語と視覚に基づくAIシステムにおけるAlpha Transparencyの爆発

Exploiting Alpha Transparency In Language And Vision-Based AI Systems ( http://arxiv.org/abs/2402.09671v1 )

ライセンス: Link先を確認
David Noever and Forrest McKee(参考訳) この調査は、PNG画像ファイルフォーマット、特にアルファ透明性層に由来する新たなエクスプロイトと、複数のAIビジョンシステムを騙す可能性を明らかにする。 提案手法では,このα層を人間の観察者には見えないが,AI画像プロセッサによって完全に動作可能なチャネルとして用いる。 この脆弱性のテスト対象は、Apple、Microsoft、Google、Salesforce、Nvidia、Facebookの代表的なビジョンシステムで、攻撃の可能性を強調している。 この脆弱性は、医療画像から自動運転技術まで、既存のビジョンシステムのセキュリティプロトコルに挑戦している。 我々の実験は、畳み込みニューラルネットワークや最新のマルチモーダル言語モデルに依存する影響を受けるシステムが、単純なパッチやアップデートによってこれらの脆弱性を迅速に軽減できないことを示した。 代わりに、それらは再訓練とアーキテクチャの変更を必要とし、このような視覚言語によるエクスプロイトに対する将来の敵対的強固化なしに、マルチモーダル技術の永続的な穴を示唆している。

This investigation reveals a novel exploit derived from PNG image file formats, specifically their alpha transparency layer, and its potential to fool multiple AI vision systems. Our method uses this alpha layer as a clandestine channel invisible to human observers but fully actionable by AI image processors. The scope tested for the vulnerability spans representative vision systems from Apple, Microsoft, Google, Salesforce, Nvidia, and Facebook, highlighting the attack's potential breadth. This vulnerability challenges the security protocols of existing and fielded vision systems, from medical imaging to autonomous driving technologies. Our experiments demonstrate that the affected systems, which rely on convolutional neural networks or the latest multimodal language models, cannot quickly mitigate these vulnerabilities through simple patches or updates. Instead, they require retraining and architectural changes, indicating a persistent hole in multimodal technologies without some future adversarial hardening against such vision-language exploits.
翻訳日:2024-02-16 17:30:49 公開日:2024-02-15
# AtlassianにおけるCIビルド失敗予測の実践者の課題と認識

Practitioners' Challenges and Perceptions of CI Build Failure Predictions at Atlassian ( http://arxiv.org/abs/2402.09651v1 )

ライセンス: Link先を確認
Yang Hong, Chakkrit Tantithamthavorn, Jirat Pasuksmit, Patanamon Thongtanunam, Arik Friedman, Xing Zhao, Anton Krasikov(参考訳) 継続的インテグレーション(CI)ビルドの失敗は、新機能のリリースの遅れや開発者の生産性の低下など、ソフトウェア開発プロセスやチームに大きな影響を与える可能性がある。 そこで本研究では,atlassianにおける製品開発全体のciビルド障害を調査した経験的研究を報告する。 定量的解析の結果,リポジトリ次元がciビルド障害に影響を与える重要な要因であることが分かりました。 さらに、当社の質的な調査によると、Atlassianの開発者は、CIビルドの失敗を実践上の課題として認識している。 さらに、CIビルド予測は、CIビルドの失敗に対する積極的な洞察を提供するだけでなく、チームの意思決定を促進することができることもわかりました。 当社の研究は、ciビルド予測ツールをbitbucket環境に統合する上での課題と期待を浮き彫りにして、ciプロセスを強化する上で有用な洞察を提供します。

Continuous Integration (CI) build failures could significantly impact the software development process and teams, such as delaying the release of new features and reducing developers' productivity. In this work, we report on an empirical study that investigates CI build failures throughout product development at Atlassian. Our quantitative analysis found that the repository dimension is the key factor influencing CI build failures. In addition, our qualitative survey revealed that Atlassian developers perceive CI build failures as challenging issues in practice. Furthermore, we found that the CI build prediction can not only provide proactive insight into CI build failures but also facilitate the team's decision-making. Our study sheds light on the challenges and expectations involved in integrating CI build prediction tools into the Bitbucket environment, providing valuable insights for enhancing CI processes.
翻訳日:2024-02-16 17:30:31 公開日:2024-02-15
# サッカー中継映像からのポーズ推定によるファウル予測

Foul prediction with estimated poses from soccer broadcast video ( http://arxiv.org/abs/2402.09650v1 )

ライセンス: Link先を確認
Jiale Fang, Calvin Yeung, Keisuke Fujii(参考訳) 近年のコンピュータビジョンの進歩は、スポーツ選手の追跡とポーズ推定に大きな進歩をもたらした。 しかし、スポーツにおけるポーズ推定による行動予測に関する研究は少なく、特に、各選手の画像サイズが小さく、例えばボールやポーズ情報の使用が困難であるため、サッカーファウルの予測は困難である。 本研究では,サッカーのファウルを予想する革新的な深層学習手法を提案する。 本手法は,新しいサッカーファールデータセットをキュレートすることで,映像データ,ボックス位置のバウンディング,画像詳細,ポーズ情報を統合する。 我々のモデルは、畳み込みニューラルネットワークと繰り返しニューラルネットワーク(CNNとRNN)を組み合わせて、これらの4つのモードからの情報を効果的にマージする。 実験の結果,全モデルがアブレーションモデルよりも優れており,全てのrnnモジュール,バウンディングボックス位置と画像,推定ポーズがファウル予測に有用であった。 本研究は,サッカーにおけるファールプレイの理解を深める上で重要な意味を持ち,今後の研究や実践の参考となる。

Recent advances in computer vision have made significant progress in tracking and pose estimation of sports players. However, there have been fewer studies on behavior prediction with pose estimation in sports, in particular, the prediction of soccer fouls is challenging because of the smaller image size of each player and of difficulty in the usage of e.g., the ball and pose information. In our research, we introduce an innovative deep learning approach for anticipating soccer fouls. This method integrates video data, bounding box positions, image details, and pose information by curating a novel soccer foul dataset. Our model utilizes a combination of convolutional and recurrent neural networks (CNNs and RNNs) to effectively merge information from these four modalities. The experimental results show that our full model outperformed the ablated models, and all of the RNN modules, bounding box position and image, and estimated pose were useful for the foul prediction. Our findings have important implications for a deeper understanding of foul play in soccer and provide a valuable reference for future research and practice in this area.
翻訳日:2024-02-16 17:30:16 公開日:2024-02-15
# ProtChatGPT:大規模言語モデルによるタンパク質の理解に向けて

ProtChatGPT: Towards Understanding Proteins with Large Language Models ( http://arxiv.org/abs/2402.09649v1 )

ライセンス: Link先を確認
Chao Wang, Hehe Fan, Ruijie Quan, Yi Yang(参考訳) タンパク質研究は様々な基本的な分野において重要であるが、複雑な構造と機能の関係を理解することは依然として困難である。 近年のLarge Language Models (LLM) はタスク固有の知識の理解に大きく貢献しており、基礎研究を促進するためにタンパク質に特化したChatGPTのようなシステムの可能性を示している。 本稿では,自然言語によるタンパク質構造の学習と理解を目的としたprotchatgptを紹介する。 ProtChatGPTを使えば、ユーザーはタンパク質をアップロードしたり、質問したり、対話的な会話をしたり、包括的な回答を得られる。 本システムは、タンパク質エンコーダ、タンパク質含有トランスフォーマー(PLP-former)、プロジェクションアダプタ、およびLLMを含む。 このタンパク質は、まずタンパク質エンコーダとPLP-formerを使用してタンパク質の埋め込みを生成し、LLMに適合するようにアダプターによって投影される。 LLMは最終的にユーザ質問と投影された埋め込みを組み合わせて、情報的な回答を生成する。 実験により、ProtChatGPTはタンパク質とその対応する質問に対する有望な応答を生成できることが示された。 ProtChatGPTがタンパク質研究のさらなる探索と応用の基礎になることを期待している。 コードとトレーニング済みのモデルは公開される予定だ。

Protein research is crucial in various fundamental disciplines, but understanding their intricate structure-function relationships remains challenging. Recent Large Language Models (LLMs) have made significant strides in comprehending task-specific knowledge, suggesting the potential for ChatGPT-like systems specialized in protein to facilitate basic research. In this work, we introduce ProtChatGPT, which aims at learning and understanding protein structures via natural languages. ProtChatGPT enables users to upload proteins, ask questions, and engage in interactive conversations to produce comprehensive answers. The system comprises protein encoders, a Protein-Language Pertaining Transformer (PLP-former), a projection adapter, and an LLM. The protein first undergoes protein encoders and PLP-former to produce protein embeddings, which are then projected by the adapter to conform with the LLM. The LLM finally combines user questions with projected embeddings to generate informative answers. Experiments show that ProtChatGPT can produce promising responses to proteins and their corresponding questions. We hope that ProtChatGPT could form the basis for further exploration and application in protein research. Code and our pre-trained model will be publicly available.
翻訳日:2024-02-16 17:29:57 公開日:2024-02-15
# 0.2定数符号化速度と高コード容量雑音閾値を有するハイパーグラフ製品コード

Hypergraph product code with 0.2 constant coding rate and high code capacity noise threshold ( http://arxiv.org/abs/2402.09648v1 )

ライセンス: Link先を確認
Zhengzhong Yi, Zhipeng Liang, Jiahan Chen, Zicheng Wang and Xuan Wang(参考訳) 量子安定化器符号の低符号化速度は、工学における量子エラー補正を実現する際に、強い物理量子ビットオーバーヘッドをもたらす。 本稿では,TGRE-hypergraph-product codeと呼ばれる新しいハイパーグラフ生成コードを提案する。 この符号の符号化速度は0.2であり、量子安定化器符号の符号化速度としては最も高い。 本稿では,誤り訂正機能tgre-hypergraph-product codeのシミュレーションを行い,脱分極ノイズチャネルの符号容量閾値は約0.096であることを示す。

The low coding rate of quantum stabilizer codes results in formidable physical qubit overhead when realizing quantum error correcting in engineering. In this letter, we propose a new class of hypergraph-product code called TGRE-hypergraph-product code. This code has constant coding rate 0.2, which is the highest constant coding rate of quantum stabilizer codes to our best knowledge. We perform simulations to test the error correcting capability TGRE-hypergraph-product code and find their code capacity noise threshold in depolarizing noise channel is around 0.096.
翻訳日:2024-02-16 17:29:39 公開日:2024-02-15
# 答えは必要なすべてだ - 質問への回答によるインストラクションフォローテキスト埋め込み

Answer is All You Need: Instruction-following Text Embedding via Answering the Question ( http://arxiv.org/abs/2402.09642v1 )

ライセンス: Link先を確認
Letian Peng, Yuwei Zhang, Zilong Wang, Jayanth Srinivasa, Gaowen Liu, Zihan Wang, Jingbo Shang(参考訳) 本研究の目的は,ユーザ指示で指定されたテキストの特徴をキャプチャできるテキスト埋め込みシステムの構築である。 ユーザ指向の埋め込みをデプロイする大きな可能性にもかかわらず、これまでのアプローチでは、具体的なソリューションを提供していません。 本稿では,入力テキストに関する質問として命令を扱い,期待した回答をエンコードして表現を得る新しい視点を提案する。 直感的には、同じ(単純)意味論を持つテキストは命令に従って同様の答えを共有し、より類似した埋め込みをもたらす。 具体的には、抽象的な質問応答タスクの言語モデルのみを微調整することで、この埋め込み型回答のアイデアをインスタンス化するInBedderを提案する。 InBedderは、提案した命令認識テストと命令堅牢性テストに基づいて、大規模言語モデル(LLM) (llama-2-7b) とより小さなエンコーダベースのLM (roberta-large) の両方に適用した場合、命令追跡機能を大幅に改善することを示した。 さらに,同一コーパスに異なる命令を適用することで得られたクラスタリング結果の質的分析により,高い解釈性を示す。

This work aims to build a text embedder that can capture characteristics of texts specified by user instructions. Despite its tremendous potential to deploy user-oriented embeddings, none of previous approaches provides a concrete solution for it. This paper offers a new viewpoint, which treats the instruction as a question about the input text and encodes the expected answers to obtain the representation accordingly. Intuitively, texts with the same (implicit) semantics would share similar answers following the instruction, thus leading to more similar embeddings. Specifically, we propose InBedder that instantiates this embed-via-answering idea by only fine-tuning language models on abstractive question answering tasks. InBedder demonstrates significantly improved instruction-following capabilities according to our proposed instruction awareness tests and instruction robustness tests, when applied to both large language models (LLMs) (e.g., llama-2-7b) and smaller encoder-based LMs (e.g., roberta-large). Additionally, our qualitative analysis of clustering outcomes, achieved by applying different instructions to the same corpus, demonstrates a high degree of interpretability.
翻訳日:2024-02-16 17:29:30 公開日:2024-02-15
# 最適化のためのマルチフィデリティ手法:サーベイ

Multi-Fidelity Methods for Optimization: A Survey ( http://arxiv.org/abs/2402.09638v1 )

ライセンス: Link先を確認
Ke Li and Fan Li(参考訳) 実世界のブラックボックス最適化は、しばしば時間を要するかコストのかかる実験とシミュレーションを含む。 MFO(Multi-fidelity Optimization)は、階層的フィデリティアプローチによって高フィデリティ精度と計算効率のバランスをとるコスト効率の戦略である。 本研究は,事前学習した言語モデルに基づく新たなテキストマイニングフレームワークに基づく,mfoの体系的探索を提案する。 我々は,mfoの基本原則と方法論を深く掘り下げ,3つのコアコンポーネント(多元的サロゲートモデル,忠実性管理戦略,最適化技術)に焦点を当てた。 さらに、機械学習、エンジニアリング設計の最適化、科学的発見など、いくつかの重要なドメインにわたるmfoの多様な応用について、複雑な計算課題に取り組むmfoの適応性と有効性を示す。 さらに,mfoのランドスケープにおける新たな課題や展望,スケーラビリティ,低フィダリティの構成,アルゴリズムレベルでのヒューマン・イン・ザ・ループ・アプローチの統合などについても考察する。 また,MFOコミュニティにおけるベンチマークやオープンサイエンスの進展に関する重要な問題にも対処する。 本調査は総合的に,MFOにおけるさらなる研究と協力の促進を目標とし,今後のイノベーションとこの分野におけるブレークスルーの舞台となる。

Real-world black-box optimization often involves time-consuming or costly experiments and simulations. Multi-fidelity optimization (MFO) stands out as a cost-effective strategy that balances high-fidelity accuracy with computational efficiency through a hierarchical fidelity approach. This survey presents a systematic exploration of MFO, underpinned by a novel text mining framework based on a pre-trained language model. We delve deep into the foundational principles and methodologies of MFO, focusing on three core components -- multi-fidelity surrogate models, fidelity management strategies, and optimization techniques. Additionally, this survey highlights the diverse applications of MFO across several key domains, including machine learning, engineering design optimization, and scientific discovery, showcasing the adaptability and effectiveness of MFO in tackling complex computational challenges. Furthermore, we also envision several emerging challenges and prospects in the MFO landscape, spanning scalability, the composition of lower fidelities, and the integration of human-in-the-loop approaches at the algorithmic level. We also address critical issues related to benchmarking and the advancement of open science within the MFO community. Overall, this survey aims to catalyze further research and foster collaborations in MFO, setting the stage for future innovations and breakthroughs in the field.
翻訳日:2024-02-16 17:29:09 公開日:2024-02-15
# Digital Subtraction Angiography における動静脈奇形の経時的変化

Spatiotemporal Disentanglement of Arteriovenous Malformations in Digital Subtraction Angiography ( http://arxiv.org/abs/2402.09636v1 )

ライセンス: Link先を確認
Kathleen Baur, Xin Xiong, Erickson Torio, Rose Du, Parikshit Juvekar, Reuben Dorent, Alexandra Golby, Sarah Frisken, Nazim Haouchine(参考訳) DSA(Digital Subtraction Angiography)は脳血管解剖の可視化において最も重要な画像であるが,臨床医による解釈は困難である。 This is particularly true when treating arteriovenous malformations (AVMs), where entangled vasculature connecting arteries and veins needs to be carefully identified.The presented method aims to enhance DSA image series by highlighting critical information via automatic classification of vessels using a combination of two learning models: An unsupervised machine learning method based on Independent Component Analysis that decomposes the phases of flow and a convolutional neural network that automatically delineates the vessels in image space. 本手法は, 臨床用DSA画像シリーズにおいて, 動脈と静脈の効率的な分化を実証し, 臨床用画像の可視化に有効であることを示した。

Although Digital Subtraction Angiography (DSA) is the most important imaging for visualizing cerebrovascular anatomy, its interpretation by clinicians remains difficult. This is particularly true when treating arteriovenous malformations (AVMs), where entangled vasculature connecting arteries and veins needs to be carefully identified.The presented method aims to enhance DSA image series by highlighting critical information via automatic classification of vessels using a combination of two learning models: An unsupervised machine learning method based on Independent Component Analysis that decomposes the phases of flow and a convolutional neural network that automatically delineates the vessels in image space. The proposed method was tested on clinical DSA images series and demonstrated efficient differentiation between arteries and veins that provides a viable solution to enhance visualizations for clinical use.
翻訳日:2024-02-16 17:28:47 公開日:2024-02-15
# visirnet: uav-taken可視および赤外線画像対のための奥行き画像アライメント

VisIRNet: Deep Image Alignment for UAV-taken Visible and Infrared Image Pairs ( http://arxiv.org/abs/2402.09635v1 )

ライセンス: Link先を確認
Sedat Ozer, Alain P. Ndigande(参考訳) 本稿では,uav撮像画像に関するマルチモーダル画像アライメントのための深層学習に基づくソリューションを提案する。 最近提案された最先端アライメント技術の多くは、ルーカス・カナード(LK)ベースのソリューションを使ってアライメントを成功させる。 しかし,lkベースの手法を使わずに最先端の成果が得られることを示す。 提案手法では,特徴埋め込みブロックに基づく2分岐型畳み込みニューラルネットワーク(CNN)を慎重に利用する。 アプローチの2つの変種を提案し、第1変種(ModelA)では、画像の四隅のみの新しい座標を直接予測し、第2変種(ModelB)では、ホモグラフィ行列を直接予測する。 イメージコーナーにアライメントを適用すると、アルゴリズムは計算とは対照的にこれらの4つのコーナーのみをマッチングさせ、多くの(キー)ポイントをマッチングする。 我々は,提案手法を4つの空中データセット上でテストし,最新のdeep lkベースのアーキテクチャと比較した結果を得た。

This paper proposes a deep learning based solution for multi-modal image alignment regarding UAV-taken images. Many recently proposed state-of-the-art alignment techniques rely on using Lucas-Kanade (LK) based solutions for a successful alignment. However, we show that we can achieve state of the art results without using LK-based methods. Our approach carefully utilizes a two-branch based convolutional neural network (CNN) based on feature embedding blocks. We propose two variants of our approach, where in the first variant (ModelA), we directly predict the new coordinates of only the four corners of the image to be aligned; and in the second one (ModelB), we predict the homography matrix directly. Applying alignment on the image corners forces algorithm to match only those four corners as opposed to computing and matching many (key)points, since the latter may cause many outliers, yielding less accurate alignment. We test our proposed approach on four aerial datasets and obtain state of the art results, when compared to the existing recent deep LK-based architectures.
翻訳日:2024-02-16 17:28:35 公開日:2024-02-15
# MiMiC:表現空間における最小限の変更

MiMiC: Minimally Modified Counterfactuals in the Representation Space ( http://arxiv.org/abs/2402.09631v1 )

ライセンス: Link先を確認
Shashwat Singh, Shauli Ravfogel, Jonathan Herzig, Roee Aharoni, Ryan Cotterell, Ponnurangam Kumaraguru(参考訳) 言語モデルは、しばしば性バイアスや有害な言語のような望ましくない行動を示す。 表現空間における介入は、LMの挙動を変化させることでそのような問題を緩和する効果を示した。 まず, 線形消去法とステアリングベクトル法という2つの顕著な介入手法は, 高い制御性が得られず, 表現力に制限があることを示す。 次に,表現空間において表現的反事実を生成するための新しい介入手法を提案し,対象クラスの表現(例えば「毒性」)を対象クラスの表現と類似させる(例えば「非毒性」)。 このアプローチは、以前の線形介入手法を一般化し、ガウスの仮定の下でのアース・ムーバー問題に対する閉形式解を活用し、表現空間の幾何学的構造に関する理論的保証を提供する。 さらに, この手法を改良し, 制御された生成を可能にする非線形介入を導出する。 提案手法は,多クラス分類におけるバイアス軽減と有毒言語生成の低減に有効であり,強力なベースラインを上回っている。

Language models often exhibit undesirable behaviors, such as gender bias or toxic language. Interventions in the representation space were shown effective in mitigating such issues by altering the LM behavior. We first show that two prominent intervention techniques, Linear Erasure and Steering Vectors, do not enable a high degree of control and are limited in expressivity. We then propose a novel intervention methodology for generating expressive counterfactuals in the representation space, aiming to make representations of a source class (e.g., ``toxic'') resemble those of a target class (e.g., ``non-toxic''). This approach, generalizing previous linear intervention techniques, utilizes a closed-form solution for the Earth Mover's problem under Gaussian assumptions and provides theoretical guarantees on the representation space's geometric organization. We further build on this technique and derive a nonlinear intervention that enables controlled generation. We demonstrate the effectiveness of the proposed approaches in mitigating bias in multiclass classification and in reducing the generation of toxic language, outperforming strong baselines.
翻訳日:2024-02-16 17:28:15 公開日:2024-02-15
# 強化学習による教師なしフェデレーション学習のためのスマート情報交換

Smart Information Exchange for Unsupervised Federated Learning via Reinforcement Learning ( http://arxiv.org/abs/2402.09629v1 )

ライセンス: Link先を確認
Seohyun Lee, Anindya Bijoy Das, Satyavrat Wagle, Christopher G. Brinton(参考訳) フェデレートラーニング(FL)のような分散機械学習パラダイムの主な課題の1つは、ローカルな非i.d.データセットの存在である。 分散デバイス間のデバイス間転送(D2D)は、この問題に対処し、ストラグラーに堅牢な効果的なツールであることが示されている。 しかし、教師なしの場合、ラベルがないためにデータ交換がどのように行われるべきかは明確ではない。 本稿では,強化学習を用いたデータ転送のための最適なグラフを作成する手法を提案する。 目的は、環境の制約を考慮して最も利益をもたらすリンクを形成し、教師なしFL環境における収束速度を改善することである。 数値解析は,提案手法の収束速度とストラグラー弾性の点で,利用可能なflスキームとベンチマークデータセットの違いに対する利点を示す。

One of the main challenges of decentralized machine learning paradigms such as Federated Learning (FL) is the presence of local non-i.i.d. datasets. Device-to-device transfers (D2D) between distributed devices has been shown to be an effective tool for dealing with this problem and robust to stragglers. In an unsupervised case, however, it is not obvious how data exchanges should take place due to the absence of labels. In this paper, we propose an approach to create an optimal graph for data transfer using Reinforcement Learning. The goal is to form links that will provide the most benefit considering the environment's constraints and improve convergence speed in an unsupervised FL environment. Numerical analysis shows the advantages in terms of convergence speed and straggler resilience of the proposed method to different available FL schemes and benchmark datasets.
翻訳日:2024-02-16 17:27:57 公開日:2024-02-15
# オープン無線アクセスネットワークにおけるML駆動アプリケーションのためのデータプライバシ保護

Preserving Data Privacy for ML-driven Applications in Open Radio Access Networks ( http://arxiv.org/abs/2402.09710v1 )

ライセンス: Link先を確認
Pranshav Gajjar, Azuka Chiejina, Vijay K. Shah(参考訳) 深層学習は、データ駆動アプローチを利用して新興アプリケーション向けの限られたスペクトルリソースを管理し共有することで、スペクトルアクセス技術を改善する有望なソリューションを提供する。 これらのアプリケーションのいくつかでは、センシティブな無線データ(スペクトログラムなど)は共有データベースやマルチステークホルダークラウド環境に格納されるため、プライバシリークが発生しやすい。 本稿では、5G Open Radio Access Network(O-RAN)ネットワークにおける共有データベースシナリオの代表的なケーススタディとして、近リアルタイム(近RT)RANインテリジェントコントローラ内に共有データベースを持つ場合について検討する。 我々は、モデルとネットワーク性能を損なうことなく、スペクトル共有および干渉緩和アプリケーションのために機械学習(ML)モデルで使用できるデータを保護することに注力する。 基本的な考え方は (i)データ暗号化のためのシャッフルベースの学習可能な暗号化技術 (ii)このような暗号化データに対して正確な推論を行うことができる訓練されたmlモデルとしてカスタムビジョントランスフォーマ(vit)を用いる。 この論文は、アナログ畳み込みニューラルネットワーク(CNN)と、より深いアーキテクチャ(ResNet-50など)をベースラインとして、徹底的な分析と比較を提供する。 実験の結果,提案手法は,暗号化データ上で操作した場合の精度が24.5%,F1スコアが23.9%向上し,ベースラインCNNを著しく上回ることがわかった。 resnet-50アーキテクチャはより正確なモデルとして得られたが、4.4%の増加でパラメータが99.32%減少し、予測時間が60%近く向上している。

Deep learning offers a promising solution to improve spectrum access techniques by utilizing data-driven approaches to manage and share limited spectrum resources for emerging applications. For several of these applications, the sensitive wireless data (such as spectrograms) are stored in a shared database or multistakeholder cloud environment and are therefore prone to privacy leaks. This paper aims to address such privacy concerns by examining the representative case study of shared database scenarios in 5G Open Radio Access Network (O-RAN) networks where we have a shared database within the near-real-time (near-RT) RAN intelligent controller. We focus on securing the data that can be used by machine learning (ML) models for spectrum sharing and interference mitigation applications without compromising the model and network performances. The underlying idea is to leverage a (i) Shuffling-based learnable encryption technique to encrypt the data, following which, (ii) employ a custom Vision transformer (ViT) as the trained ML model that is capable of performing accurate inferences on such encrypted data. The paper offers a thorough analysis and comparisons with analogous convolutional neural networks (CNN) as well as deeper architectures (such as ResNet-50) as baselines. Our experiments showcase that the proposed approach significantly outperforms the baseline CNN with an improvement of 24.5% and 23.9% for the percent accuracy and F1-Score respectively when operated on encrypted data. Though deeper ResNet-50 architecture is obtained as a slightly more accurate model, with an increase of 4.4%, the proposed approach boasts a reduction of parameters by 99.32%, and thus, offers a much-improved prediction time by nearly 60%.
翻訳日:2024-02-16 17:19:46 公開日:2024-02-15
# Robertson と Maccone-Pati の不確実性関係による開量子力学のトレードオフ関係

Trade-off relations in open quantum dynamics via Robertson and Maccone-Pati uncertainty relations ( http://arxiv.org/abs/2402.09680v1 )

ライセンス: Link先を確認
Tomohiro Nishiyama and Yoshihiko Hasegawa(参考訳) ハイゼンベルクの不確実性関係は、ロバートソンによる一般化とともに、量子力学における基本的な概念となり、可観測性の非可換対を正確に測定できないことをカプセル化する。 本稿では,ロバートソンの不確実性関係を探究し,開量子力学における一連の熱力学的不確実性関係と量子速度限界の確立におけるその効果を実証する。 この導出は、量子連続測定の時間進化を系と場の時間進化にマッピングするスケールした連続行列積状態表現を利用する。 具体的には、ロバーソンの不確実性関係の洗練であるマクコーネ・パティの不確実性関係を、オープン量子力学シナリオにおける熱力学的不確実性関係と量子速度制限を導出する。 これらの新しく導かれた関係は、初期状態と直交する状態を使い、以前知られていた境界よりも厳密な境界を与える。 我々の発見はロバートソンの不確実性関係の意義を補強するだけでなく、オープン量子力学における不確実性関係を同定する可能性を広げるものである。

The Heisenberg uncertainty relation, together with its generalization by Robertson, serves as a fundamental concept in quantum mechanics, encapsulating that non-commutative pairs of observable cannot be measured precisely. In this Letter, we explore the Robertson uncertainty relation to demonstrate its effectiveness in establishing a series of thermodynamic uncertainty relations and quantum speed limits in open quantum dynamics. The derivation utilizes the scaled continuous matrix product state representation that maps the time evolution of quantum continuous measurement to the time evolution of the system and field. Specifically, we consider the Maccone-Pati uncertainty relation, a refinement of the Robertson uncertainty relation, to derive thermodynamic uncertainty relations and quantum speed limits within open quantum dynamics scenarios. These newly derived relations, which use a state orthogonal to the initial state, yield tighter bounds than the previously known bounds. Our findings not only reinforce the significance of the Robertson uncertainty relation, but also expand its applicability to identify uncertainty relations in open quantum dynamics.
翻訳日:2024-02-16 17:19:21 公開日:2024-02-15
# 医用視覚質問応答のためのプロンプトに基づく個人化フェデレーション学習

Prompt-based Personalized Federated Learning for Medical Visual Question Answering ( http://arxiv.org/abs/2402.09677v1 )

ライセンス: Link先を確認
He Zhu, Ren Togo, Takahiro Ogawa, Miki Haseyama(参考訳) 本稿では,従来の医用視覚質問応答法(VQA)におけるデータ不均一性とプライバシー問題に対処する,プロンプトベースのパーソナライズド・フェデレーション・ラーニング(pFL)手法を提案する。 具体的には、異なる臓器からの医療データセットをクライアントとみなし、各クライアントに対してパーソナライズされたトランスフォーマーベースのVQAモデルをトレーニングするためにpFLを使用する。 従来のpFL手法におけるクライアント間通信の計算複雑性に対処するため,学習可能なパラメータの少ないプロンプトを導入し,簡潔な情報共有システムを提案する。 さらに,低性能および無関係なクライアントの負の効果を防止するための信頼性パラメータを提案する。 最後に, 各種異種医療データセットの広範な評価により, 提案手法の有効性が確認された。

We present a novel prompt-based personalized federated learning (pFL) method to address data heterogeneity and privacy concerns in traditional medical visual question answering (VQA) methods. Specifically, we regard medical datasets from different organs as clients and use pFL to train personalized transformer-based VQA models for each client. To address the high computational complexity of client-to-client communication in previous pFL methods, we propose a succinct information sharing system by introducing prompts that are small learnable parameters. In addition, the proposed method introduces a reliability parameter to prevent the negative effects of low performance and irrelevant clients. Finally, extensive evaluations on various heterogeneous medical datasets attest to the effectiveness of our proposed method.
翻訳日:2024-02-16 17:19:02 公開日:2024-02-15
# HyperMagNet: 磁気ラプラシア系ハイパーグラフニューラルネットワーク

HyperMagNet: A Magnetic Laplacian based Hypergraph Neural Network ( http://arxiv.org/abs/2402.09676v1 )

ライセンス: Link先を確認
Tatyana Benko, Martin Buck, Ilya Amburg, Stephen J. Young, Sinan G. Aksoy(参考訳) データサイエンスでは、ハイパーグラフはマルチウェイ関係を示すデータのための自然なモデルである。 それでも、多くのハイパーグラフニューラルネットワークは、対称性行列表現を介して非向グラフへのハイパーグラフを効果的に削減し、重要な情報を失う可能性がある。 本稿では,ハイパーグラフを非可逆マルコフ連鎖として表現するハイパーグラフニューラルネットワークの代替手法を提案する。 我々はこのマルコフ連鎖を用いて、提案したハイパーグラフニューラルネットワークの入力として機能する複素エルミートラプラシアン行列(磁気ラプラシアン)を構築する。 我々はハイパーマグネットをノード分類のタスクとして研究し,グラフリダクションに基づくハイパーグラフニューラルネットワークの有効性を実証する。

In data science, hypergraphs are natural models for data exhibiting multi-way relations, whereas graphs only capture pairwise. Nonetheless, many proposed hypergraph neural networks effectively reduce hypergraphs to undirected graphs via symmetrized matrix representations, potentially losing important information. We propose an alternative approach to hypergraph neural networks in which the hypergraph is represented as a non-reversible Markov chain. We use this Markov chain to construct a complex Hermitian Laplacian matrix - the magnetic Laplacian - which serves as the input to our proposed hypergraph neural network. We study HyperMagNet for the task of node classification, and demonstrate its effectiveness over graph-reduction based hypergraph neural networks.
翻訳日:2024-02-16 17:18:46 公開日:2024-02-15
# pal: 大きな言語モデルに対するプロキシ誘導ブラックボックス攻撃

PAL: Proxy-Guided Black-Box Attack on Large Language Models ( http://arxiv.org/abs/2402.09674v1 )

ライセンス: Link先を確認
Chawin Sitawarin, Norman Mu, David Wagner, Alexandre Araujo(参考訳) 近年,大規模言語モデル(llm)の人気が高まっているが,操作時に有害なコンテンツを生成する能力が実証されている。 安全チューニングのような技術は、有害な使用を最小限に抑えることを目的としているが、最近の研究によると、LSMは有害な反応を引き起こす攻撃に弱いままである。 本研究では, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である PAL (Proxy-Guided Attack on LLMs) を提案する。 特に、実際のLLM API用に設計された最適化と洗練された損失を導くための代理モデルに依存しています。 GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。 ホワイトボックスのLlama-2-7Bで94%のASRに達するGCG攻撃の改善であるGCG++や、クエリベースの攻撃の強力なシンプルなベースラインであるLLM(Landom-Search Attack on LLMs)も提案する。 本研究で提案される技術は,LLMのより包括的な安全性試験を可能にし,長期的にはより優れたセキュリティガードレールの開発が期待できる。 コードはhttps://github.com/chawins/palにある。

Large Language Models (LLMs) have surged in popularity in recent months, but they have demonstrated concerning capabilities to generate harmful content when manipulated. While techniques like safety fine-tuning aim to minimize harmful use, recent works have shown that LLMs remain vulnerable to attacks that elicit toxic responses. In this work, we introduce the Proxy-Guided Attack on LLMs (PAL), the first optimization-based attack on LLMs in a black-box query-only setting. In particular, it relies on a surrogate model to guide the optimization and a sophisticated loss designed for real-world LLM APIs. Our attack achieves 84% attack success rate (ASR) on GPT-3.5-Turbo and 48% on Llama-2-7B, compared to 4% for the current state of the art. We also propose GCG++, an improvement to the GCG attack that reaches 94% ASR on white-box Llama-2-7B, and the Random-Search Attack on LLMs (RAL), a strong but simple baseline for query-based attacks. We believe the techniques proposed in this work will enable more comprehensive safety testing of LLMs and, in the long term, the development of better security guardrails. The code can be found at https://github.com/chawins/pal.
翻訳日:2024-02-16 17:18:34 公開日:2024-02-15
# データ効率の良いLCMのトレーニング方法

How to Train Data-Efficient LLMs ( http://arxiv.org/abs/2402.09668v1 )

ライセンス: Link先を確認
Noveen Sachdeva, Benjamin Coleman, Wang-Cheng Kang, Jianmo Ni, Lichan Hong, Ed H. Chi, James Caverlee, Julian McAuley, Derek Zhiyuan Cheng(参考訳) 大規模言語モデルのトレーニング(LLM)は高価である。 本稿では,モデル品質のParetoフロンティアとトレーニングリソース/データ消費の最適化を目的とした,事前学習型LCMのためのデータ効率アプローチについて検討する。 私たちはデータ選択ルーチンに関連するトレードオフを理解するために (i)計算コストが高いデータ品質の推定値、 (ii)機能空間におけるカバー範囲の最大化と多様性に基づく尺度。 最初の技術であるAsk-LLMは、訓練例の品質を直接評価するために、命令調整LDMのゼロショット推論機能を利用する。 対象範囲を推定するために,データ分布をモデル化して多様なサンプルを選択する密度サンプリングを提案する。 何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適であることがわかった。 カバレッジサンプリングは全データのパフォーマンスを回復するが、Ask-LLMデータでトレーニングされたモデルは、元のデータセットの90%を拒否しても、最大70%高速に収束する。

The training of large language models (LLMs) is expensive. In this paper, we study data-efficient approaches for pre-training LLMs, i.e., techniques that aim to optimize the Pareto frontier of model quality and training resource/data consumption. We seek to understand the tradeoffs associated with data selection routines based on (i) expensive-to-compute data-quality estimates, and (ii) maximization of coverage and diversity-based measures in the feature space. Our first technique, Ask-LLM, leverages the zero-shot reasoning capabilities of instruction-tuned LLMs to directly assess the quality of a training example. To target coverage, we propose Density sampling, which models the data distribution to select a diverse sample. In our comparison of 19 samplers, involving hundreds of evaluation tasks and pre-training runs, we find that Ask-LLM and Density are the best methods in their respective categories. Coverage sampling can recover the performance of the full data, while models trained on Ask-LLM data consistently outperform full-data training -- even when we reject 90% of the original dataset, while converging up to 70% faster.
翻訳日:2024-02-16 17:18:09 公開日:2024-02-15
# EntailE:Commonsense Knowledge Graph Completionにおけるテキスト・エンターメントの導入

EntailE: Introducing Textual Entailment in Commonsense Knowledge Graph Completion ( http://arxiv.org/abs/2402.09666v1 )

ライセンス: Link先を確認
Ying Su, Tianqing Fang, Huiru Xiao, Weiqi Wang, Yangqiu Song, Tong Zhang, Lei Chen(参考訳) commonsense knowledge graph completionは、commonsense knowledge graphの構築と応用のための新しい挑戦である。 FreebaseやYAGOのような事実知識グラフとは対照的に、Commonsense knowledge graph(CSKG、ConceptNet)は名前付きエンティティ、短いフレーズ、イベントをノードとして表現するために自由形式のテキストを使用する。 このようなゆるい構造は、大きくスパースなCSKGをもたらすため、これらのノードの意味的理解をより重要視して、リッチコモンセンス知識グラフの埋め込みを学ぶ。 現在の手法はグラフ密度を増加させるために意味的類似性を利用するが、ノードとその関係のセマンティックな妥当性は未探索である。 従来の作業では、モデリング(イベント)の可視性の整合性を改善するために概念的な抽象化を採用していましたが、スケーラビリティが十分ではなく、データ疎結合に悩まされています。 本稿では,cskgノード間の暗黙的な関連関係を見出すために,同じ概念クラス内のサブグラフ接続ノードを効果的に密度化するために,テキストによる重み付けを導入することを提案する。 CSKGの各ノードは、自然言語推論(NLI)タスク上の微調整されたトランスフォーマーを使用して、最上位のノードを見つける。 これらのノード間の包含関係をさらに活用する。 1) ソーストリプレットと、スパースcskgsを高密度化するためのノードとの新たな接続を構築する。 2) ノード埋め込みと対照的な損失を比較することにより,ノード表現の一般化能力を高める。 2つの標準CSKGの実験により,提案フレームワーク EntailE がCSKG完了タスクの性能をトランスダクティブとインダクティブの両方で向上できることを示した。

Commonsense knowledge graph completion is a new challenge for commonsense knowledge graph construction and application. In contrast to factual knowledge graphs such as Freebase and YAGO, commonsense knowledge graphs (CSKGs; e.g., ConceptNet) utilize free-form text to represent named entities, short phrases, and events as their nodes. Such a loose structure results in large and sparse CSKGs, which makes the semantic understanding of these nodes more critical for learning rich commonsense knowledge graph embedding. While current methods leverage semantic similarities to increase the graph density, the semantic plausibility of the nodes and their relations are under-explored. Previous works adopt conceptual abstraction to improve the consistency of modeling (event) plausibility, but they are not scalable enough and still suffer from data sparsity. In this paper, we propose to adopt textual entailment to find implicit entailment relations between CSKG nodes, to effectively densify the subgraph connecting nodes within the same conceptual class, which indicates a similar level of plausibility. Each node in CSKG finds its top entailed nodes using a finetuned transformer over natural language inference (NLI) tasks, which sufficiently capture textual entailment signals. The entailment relation between these nodes are further utilized to: 1) build new connections between source triplets and entailed nodes to densify the sparse CSKGs; 2) enrich the generalization ability of node representations by comparing the node embeddings with a contrastive loss. Experiments on two standard CSKGs demonstrate that our proposed framework EntailE can improve the performance of CSKG completion tasks under both transductive and inductive settings.
翻訳日:2024-02-16 17:17:49 公開日:2024-02-15
# CodeMind: コード推論のための大規模言語モデルに挑戦するフレームワーク

CodeMind: A Framework to Challenge Large Language Models for Code Reasoning ( http://arxiv.org/abs/2402.09664v1 )

ライセンス: Link先を確認
Changshu Liu, Shizhuo Dylan Zhang, Reyhaneh Jabbarvand(参考訳) コード合成にLLM(Large Language Models)を評価するためにテストパスに頼ることは、不公平な評価やデータ漏洩を伴うモデルの促進につながる可能性がある。 代替として,LLMのコード推論能力を評価するためのフレームワークであるCodeMindを紹介する。 CodeMindは現在、Independent Execution Reasoning (IER)、Dependent Execution Reasoning (DER)、Specification Reasoning (SR)の3つのコード推論タスクをサポートしている。 最初の2つは、任意のコードやモデルが正しく合成できるコードの実行出力を予測するモデルを評価する。 第3の方法は、llmが指定された期待される動作を実装する程度を評価する。 CodeMindを用いた5つのベンチマークにおける9つのLLMの広範囲な評価は、LLMが制御フロー構造を十分に理解しており、一般的には、入力がどのように出力に進化するかを推論できることを示している。 しかし、高い複雑性、非自明な論理演算子と算術演算子、非プリミティブ型、api呼び出しを持つコードではパフォーマンスが低下する。 さらに、関連づけられた仕様推論(コード合成に必須)は実行推論(テストやデバッグのような幅広いプログラミングタスクに必須)を含まないことを観察する。

Solely relying on test passing to evaluate Large Language Models (LLMs) for code synthesis may result in unfair assessment or promoting models with data leakage. As an alternative, we introduce CodeMind, a framework designed to gauge the code reasoning abilities of LLMs. CodeMind currently supports three code reasoning tasks: Independent Execution Reasoning (IER), Dependent Execution Reasoning (DER), and Specification Reasoning (SR). The first two evaluate models to predict the execution output of an arbitrary code or code the model could correctly synthesize. The third one evaluates the extent to which LLMs implement the specified expected behavior. Our extensive evaluation of nine LLMs across five benchmarks in two different programming languages using CodeMind shows that LLMs fairly understand control flow constructs and, in general, are capable of reasoning how inputs evolve to output, specifically for simple programs and the ones they can correctly synthesize. However, their performance drops for code with higher complexity, non-trivial logical and arithmetic operators, non-primitive types, and API calls. Furthermore, we observe that, while correlated, specification reasoning (essential for code synthesis) does not imply execution reasoning (essential for broader programming tasks such as testing and debugging): ranking LLMs based on test passing can be different compared to code reasoning.
翻訳日:2024-02-16 17:17:19 公開日:2024-02-15
# マルチスケールテンプレートマッチング,バックグラウンドサブトラクション,バイナリ画像解析を用いた手形状とジェスチャー認識

Hand Shape and Gesture Recognition using Multiscale Template Matching, Background Subtraction and Binary Image Analysis ( http://arxiv.org/abs/2402.09663v1 )

ライセンス: Link先を確認
Ketan Suhaas Saichandran(参考訳) 本稿では,マルチスケールテンプレートマッチングを用いた手形分類手法を提案する。 背景サブトラクションの統合により、ハンドオブジェクトのバイナリイメージを導出し、centroidやbounding boxといった重要な特徴の抽出を可能にする。 この方法論は単純ではあるが、基本的な手形分類タスクにおいて有効性を示し、単純な人間とコンピュータの相互作用シナリオにおける潜在的な応用の基礎を築いている。 実験の結果,制御環境におけるシステムの能力が強調された。

This paper presents a hand shape classification approach employing multiscale template matching. The integration of background subtraction is utilized to derive a binary image of the hand object, enabling the extraction of key features such as centroid and bounding box. The methodology, while simple, demonstrates effectiveness in basic hand shape classification tasks, laying the foundation for potential applications in straightforward human-computer interaction scenarios. Experimental results highlight the system's capability in controlled environments.
翻訳日:2024-02-16 17:16:55 公開日:2024-02-15
# ユーザモデリングとユーザプロファイリング: 総合的な調査

User Modeling and User Profiling: A Comprehensive Survey ( http://arxiv.org/abs/2402.09660v1 )

ライセンス: Link先を確認
Erasmo Purificato (1), Ludovico Boratto (2), and Ernesto William De Luca (1) ((1) Otto von Guericke University Magdeburg, Germany, (2) University of Cagliari, Italy)(参考訳) 人工知能(AI)の日常生活、特に情報検索とレコメンデーションシステムへの統合は、パーソナライズされた体験を提供するために高度なユーザーモデリングとプロファイリング技術を必要としている。 これらの手法は,これらのシステムとのインタラクションによって生成される大量のデータに基づいて,正確なユーザ表現を構築することを目的としている。 本稿では,ユーザモデリングとプロファイリング研究の現状,進化,今後の方向性について総合的な調査を行う。 我々は,初期のステレオタイプモデルから最新のディープラーニング技術までの発展をたどり,その歴史を概観し,最近のトレンドを含めて,本研究分野のすべての活発なトピックを包含する新しい分類法を提案する。 調査では,より高度なユーザプロファイリング手法へのパラダイムシフト,暗黙のデータ収集,マルチビヘイビアモデリング,グラフデータ構造の統合を強調した。 また,プライバシ保護技術の必要性や,ユーザモデリングアプローチにおける説明可能性と公平性への推進にも対処しています。 中心項の定義を調べることによって、曖昧さを明確にし、主項の2つの新しい百科事典的定義を提案し、分野のより明確な理解を促進することを目指す。 さらに,フェイクニュース検出,サイバーセキュリティ,パーソナライズ教育など,さまざまな分野におけるユーザモデリングの適用について検討する。 この調査は、ユーザモデリングとプロファイリングの進化に関する洞察を提供し、よりパーソナライズされた倫理的で効果的なAIシステムの開発を導く、研究者や実践者のための総合的なリソースとして機能する。

The integration of artificial intelligence (AI) into daily life, particularly through information retrieval and recommender systems, has necessitated advanced user modeling and profiling techniques to deliver personalized experiences. These techniques aim to construct accurate user representations based on the rich amounts of data generated through interactions with these systems. This paper presents a comprehensive survey of the current state, evolution, and future directions of user modeling and profiling research. We provide a historical overview, tracing the development from early stereotype models to the latest deep learning techniques, and propose a novel taxonomy that encompasses all active topics in this research area, including recent trends. Our survey highlights the paradigm shifts towards more sophisticated user profiling methods, emphasizing implicit data collection, multi-behavior modeling, and the integration of graph data structures. We also address the critical need for privacy-preserving techniques and the push towards explainability and fairness in user modeling approaches. By examining the definitions of core terminology, we aim to clarify ambiguities and foster a clearer understanding of the field by proposing two novel encyclopedic definitions of the main terms. Furthermore, we explore the application of user modeling in various domains, such as fake news detection, cybersecurity, and personalized education. This survey serves as a comprehensive resource for researchers and practitioners, offering insights into the evolution of user modeling and profiling and guiding the development of more personalized, ethical, and effective AI systems.
翻訳日:2024-02-16 17:16:47 公開日:2024-02-15
# ゼブラフィッシュの精密心血管解析に向けて:ZACAFパラダイム

Towards Precision Cardiovascular Analysis in Zebrafish: The ZACAF Paradigm ( http://arxiv.org/abs/2402.09658v1 )

ライセンス: Link先を確認
Amir Mohammad Naderi, Jennifer G. Casey, Mao-Hsiang Huang, Rachelle Victorio, David Y. Chiang, Calum MacRae, Hung Cao, Vandana A. Gupta(参考訳) 生物調査のホストとしてのゼブラフィッシュの放出率などの心臓血管パラメータの定量化が広く研究されている。 現在の手動監視技術は時間を要するため、プロセスを自動化するためにいくつかの画像処理フレームワークが提案されている。 これらの作品のほとんどは、教師付きディープラーニングアーキテクチャに依存している。 しかし、教師付きメソッドはトレーニングデータセットに過度に適合する傾向にある。 これは、異なる画像設定とミュータントタイプの新しいデータに同じフレームワークを適用することで、パフォーマンスが大幅に低下することを意味する。 ゼブラフィッシュの心機能を評価するため,ゼブラフィッシュ自動心血管評価フレームワーク(ZACAF)を開発した。 本研究は,ゼブラフィッシュの心血管機能定量化性能を向上させるために,データ拡張,伝達学習(TL),テスト時間拡張(TTA)をZACAFに適用した。 この戦略は他の研究者を支援するために利用可能なフレームワークと統合することができる。 制約付きデータセットであっても、TLを用いることで、様々なミュータントタイプを包含し、様々なビデオ記録プロトコルを収容し、新しい顕微鏡構成に対応することができることを示す。 さらに,ユーザが連続するTLラウンドに参加することにより,一般化性と精度の両面で大幅に向上することが期待されている。 最後に,心筋症モデルであるnrap変異ゼブラフィッシュの心血管機能評価にこのアプローチを適用した。

Quantifying cardiovascular parameters like ejection fraction in zebrafish as a host of biological investigations has been extensively studied. Since current manual monitoring techniques are time-consuming and fallible, several image processing frameworks have been proposed to automate the process. Most of these works rely on supervised deep-learning architectures. However, supervised methods tend to be overfitted on their training dataset. This means that applying the same framework to new data with different imaging setups and mutant types can severely decrease performance. We have developed a Zebrafish Automatic Cardiovascular Assessment Framework (ZACAF) to quantify the cardiac function in zebrafish. In this work, we further applied data augmentation, Transfer Learning (TL), and Test Time Augmentation (TTA) to ZACAF to improve the performance for the quantification of cardiovascular function quantification in zebrafish. This strategy can be integrated with the available frameworks to aid other researchers. We demonstrate that using TL, even with a constrained dataset, the model can be refined to accommodate a novel microscope setup, encompassing diverse mutant types and accommodating various video recording protocols. Additionally, as users engage in successive rounds of TL, the model is anticipated to undergo substantial enhancements in both generalizability and accuracy. Finally, we applied this approach to assess the cardiovascular function in nrap mutant zebrafish, a model of cardiomyopathy.
翻訳日:2024-02-16 17:16:20 公開日:2024-02-15
# 無線ネットワーク上でのフェデレーション学習のためのディジタル対アナログ伝送

Digital versus Analog Transmissions for Federated Learning over Wireless Networks ( http://arxiv.org/abs/2402.09657v1 )

ライセンス: Link先を確認
Jiacheng Yao, Wei Xu, Zhaohui Yang, Xiaohu You, Mehdi Bennis, H. Vincent Poor(参考訳) 本稿では,これら2つの効果的な通信方式(デジタル通信とアナログ通信)を,資源制約付きネットワーク上での無線フェデレート学習(fl)に対して定量的に比較し,それぞれのアプリケーションシナリオと本質的差異を強調する。 まず, ディジタル伝送法とアナログ伝送法の両方を, 統一的かつ公正な比較手法とともに検討した。 無線ネットワークにおけるFL性能評価のために,様々な不完全条件下での普遍収束解析を確立する。 これらの分析結果から,2つのパラダイムの根本的な違いは,コミュニケーションと計算が共同で設計されているかどうかにあることが明らかとなった。 デジタルスキームは、通信設計を特定のFLタスクから切り離し、帯域幅が限られている大規模デバイスの同時アップリンク伝送をサポートすることが困難である。 これとは対照的に、アナログ通信はオーバー・ザ・エア計算(AirComp)を可能にし、効率的なスペクトル利用を実現する。 しかし、計算指向アナログ伝送は電力効率を低下させ、その性能は計算誤差に敏感である。 最後に、これらの理論観測を検証するために数値シミュレーションを行った。

In this paper, we quantitatively compare these two effective communication schemes, i.e., digital and analog ones, for wireless federated learning (FL) over resource-constrained networks, highlighting their essential differences as well as their respective application scenarios. We first examine both digital and analog transmission methods, together with a unified and fair comparison scheme under practical constraints. A universal convergence analysis under various imperfections is established for FL performance evaluation in wireless networks. These analytical results reveal that the fundamental difference between the two paradigms lies in whether communication and computation are jointly designed or not. The digital schemes decouple the communication design from specific FL tasks, making it difficult to support simultaneous uplink transmission of massive devices with limited bandwidth. In contrast, the analog communication allows over-the-air computation (AirComp), thus achieving efficient spectrum utilization. However, computation-oriented analog transmission reduces power efficiency, and its performance is sensitive to computational errors. Finally, numerical simulations are conducted to verify these theoretical observations.
翻訳日:2024-02-16 17:15:58 公開日:2024-02-15
# モデル編集による蝶効果:大言語モデルの崩壊をトリガーできる編集は少ない

The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse ( http://arxiv.org/abs/2402.09656v1 )

ライセンス: Link先を確認
Wanli Yang, Fei Sun, Xinyu Ma, Xun Liu, Dawei Yin, Xueqi Cheng(参考訳) モデル編集は、Large Language Models (LLM) における知識の改訂に有望であるが、LLMの本質的な能力への影響はしばしば見過ごされている。 一つの編集でもモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。 しかし、このような崩壊を防ぐために各編集後のLCMのベンチマークは、致命的であり、資源集約である。 そこで本研究では,ダウンストリームのタスク性能と強い相関関係を実証した広範囲な実験により検証した,代理メトリックとしてのパープレキシティの利用を提案する。 さらに,従来の単一編集研究の難題に焦点をあて,様々な編集手法やLLMをまたいだ実世界のシナリオの実践的設定であるシーケンシャル編集の詳細な研究を行っている。 その結果, ほぼすべての編集手法が, ほんの数回の編集後, モデル崩壊をもたらすことがわかった。 さらなる研究を容易にするため、我々はChatGPTを用いて、これらのハードケースに基づいた新しいデータセットであるHardCFを開発した。 このデータセットは、信頼性のあるモデル編集の研究の先駆的な基盤と、編集によるモデル崩壊のメカニズムを確立することを目的としている。 この作業が,モデル編集プラクティスに内在する潜在的なリスクに対して,コミュニティの注意を引き付けることを願っています。

Although model editing has shown promise in revising knowledge in Large Language Models (LLMs), its impact on the inherent capabilities of LLMs is often overlooked. In this work, we reveal a critical phenomenon: even a single edit can trigger model collapse, manifesting as significant performance degradation in various benchmark tasks. However, benchmarking LLMs after each edit, while necessary to prevent such collapses, is impractically time-consuming and resource-intensive. To mitigate this, we propose using perplexity as a surrogate metric, validated by extensive experiments demonstrating its strong correlation with downstream task performance. We further conduct an in-depth study on sequential editing, a practical setting for real-world scenarios, across various editing methods and LLMs, focusing on hard cases from our previous single edit studies. The results indicate that nearly all examined editing methods result in model collapse after only few edits. To facilitate further research, we have utilized ChatGPT to develop a new dataset, HardCF, based on those hard cases. This dataset aims to establish the foundation for pioneering research in reliable model editing and the mechanisms underlying editing-induced model collapse. We hope this work can draw the community's attention to the potential risks inherent in model editing practices.
翻訳日:2024-02-16 17:15:42 公開日:2024-02-15
# gpt-4のusmleに基づくケーススタディにおける性能評価

GPT-4's assessment of its performance in a USMLE-based case study ( http://arxiv.org/abs/2402.09654v1 )

ライセンス: Link先を確認
Uttam Dhakal, Aniket Kumar Singh, Suman Devkota, Yogesh Sapkota, Bishal Lamichhane, Suprinsa Paudyal, Chandra Dhakal(参考訳) 本研究は、医療応用におけるGPT-4の評価について検討する。 米国医学ライセンス試験 (USMLE) のアンケート調査から得られた質問に対して, 簡単なプロンプト法を用いてLCMを刺激し, 質問に反応する前にその信頼度を評価することを課題とした。 アンケートは,フィードバックなし群(wf)と無フィードバック群(nf)の2つのグループに分類した。 モデルは各質問の前後に絶対的および相対的信頼スコアを提供するよう求められた。 実験結果は,wf群とnf群の信頼性の変動を調べるために統計的ツールを用いて解析した。 さらに,WF群とNF群のパフォーマンス変動を観測するために,逐次解析を行った。 結果は、フィードバックは相対的な信頼に影響を及ぼすが、継続的に増加または減少しないことを示している。 LLMのパフォーマンスを理解することは、医療などのセンシティブな分野でその有用性を探求する上で最重要である。 この研究は、医療におけるAIの信頼性、特にGPT-4のようなLCMの信頼性に関する継続的な議論に寄与し、AI支援医療教育と意思決定支援を強化するためにフィードバックメカニズムをどのように最適化するかについての洞察を提供する。

This study investigates GPT-4's assessment of its performance in healthcare applications. A simple prompting technique was used to prompt the LLM with questions taken from the United States Medical Licensing Examination (USMLE) questionnaire and it was tasked to evaluate its confidence score before posing the question and after asking the question. The questionnaire was categorized into two groups-questions with feedback (WF) and questions with no feedback(NF) post-question. The model was asked to provide absolute and relative confidence scores before and after each question. The experimental findings were analyzed using statistical tools to study the variability of confidence in WF and NF groups. Additionally, a sequential analysis was conducted to observe the performance variation for the WF and NF groups. Results indicate that feedback influences relative confidence but doesn't consistently increase or decrease it. Understanding the performance of LLM is paramount in exploring its utility in sensitive areas like healthcare. This study contributes to the ongoing discourse on the reliability of AI, particularly of LLMs like GPT-4, within healthcare, offering insights into how feedback mechanisms might be optimized to enhance AI-assisted medical education and decision support.
翻訳日:2024-02-16 17:15:17 公開日:2024-02-15
# 視覚的に幻覚的なインストラクション生成:知らないことを知る

Visually Dehallucinative Instruction Generation: Know What You Don't Know ( http://arxiv.org/abs/2402.09717v1 )

ライセンス: Link先を確認
Sungguk Cha, Jusung Lee, Younghyun Lee, Cheoljong Yang(参考訳) 「いつナポレオンはiPhoneを発明したのか。」 このような幻覚誘発質問は、生成言語モデリングにおいてよく知られた課題である。 本研究では, 「I Don't Know」が望ましい応答であるシナリオに対処するため, 「I Know (IK) 幻覚」と呼ばれる視覚幻覚の革新的な概念を提案する。 この問題を効果的に解決するために,人間のアノテータによって決定される未解決画像探索ペアからなるVQAv2のサブセットであるVQAv2-IDKベンチマークを提案する。 さらに, ik幻覚のための視覚的除幻覚的命令生成法を提案し, idk-instruction visual instruction databaseを紹介する。 実験の結果,現在の手法はIK幻覚に苦しむことがわかった。 しかし、このアプローチは幻覚を効果的に減少させ、さまざまなフレームワークやデータセットにまたがる汎用性を証明します。

"When did the emperor Napoleon invented iPhone?" Such hallucination-inducing question is well known challenge in generative language modeling. In this study, we present an innovative concept of visual hallucination, referred to as "I Know (IK)" hallucination, to address scenarios where "I Don't Know" is the desired response. To effectively tackle this issue, we propose the VQAv2-IDK benchmark, the subset of VQAv2 comprising unanswerable image-question pairs as determined by human annotators. Stepping further, we present the visually dehallucinative instruction generation method for IK hallucination and introduce the IDK-Instructions visual instruction database. Our experiments show that current methods struggle with IK hallucination. Yet, our approach effectively reduces these hallucinations, proving its versatility across different frameworks and datasets.
翻訳日:2024-02-16 17:07:42 公開日:2024-02-15
# 会話型aiにおけるユーザのプライバシー侵害とリスク:提案フレームワーク

User Privacy Harms and Risks in Conversational AI: A Proposed Framework ( http://arxiv.org/abs/2402.09716v1 )

ライセンス: Link先を確認
Ece Gumusel, Kyrie Zhixuan Zhou, Madelyn Rose Sanfilippo(参考訳) 本研究では,Solove(2006)の分類を応用し,テキストベースのAIチャットボットとのインタラクションにおけるプライバシー問題に対処する独自のフレームワークを提案する。 チャットボットの普及に伴い、ユーザーのプライバシーに関する懸念が高まっている。 既存の文献ではプライバシーを侵害するデザイン要素が強調されているが、包括的なフレームワークは欠落している。 2つのaiチャットボットと対話する13人の参加者との半構造化インタビューを通じて、テキストベースのインタラクションにおける9つのプライバシー侵害と9つのプライバシリスクを特定した。 インタビューとチャットログ分析のための根拠付き理論アプローチを用いて、このフレームワークはさまざまなインタラクションステージでプライバシへの影響を調べる。 目的は、開発者、政策立案者、研究者に、テキストベースのAIチャットボットに関連するプライバシー問題に対処する既存のギャップを埋め、会話AIの実装を責任とセキュアにするためのツールを提供することだ。

This study presents a unique framework that applies and extends Solove (2006)'s taxonomy to address privacy concerns in interactions with text-based AI chatbots. As chatbot prevalence grows, concerns about user privacy have heightened. While existing literature highlights design elements compromising privacy, a comprehensive framework is lacking. Through semi-structured interviews with 13 participants interacting with two AI chatbots, this study identifies 9 privacy harms and 9 privacy risks in text-based interactions. Using a grounded theory approach for interview and chatlog analysis, the framework examines privacy implications at various interaction stages. The aim is to offer developers, policymakers, and researchers a tool for responsible and secure implementation of conversational AI, filling the existing gap in addressing privacy issues associated with text-based AI chatbots.
翻訳日:2024-02-16 17:07:18 公開日:2024-02-15
# DPBalance:フェデレートラーニング・アズ・ア・サービスのための効率的かつ公平なプライバシ予算スケジューリング

DPBalance: Efficient and Fair Privacy Budget Scheduling for Federated Learning as a Service ( http://arxiv.org/abs/2402.09715v1 )

ライセンス: Link先を確認
Yu Liu, Zibo Wang, Yifei Zhu, Chen Chen(参考訳) フェデレートラーニング(FL)は、生データを集約することなく協調的なモデルトレーニングを可能にする、一般的な分散機械学習スキームとして登場した。 クラウドサービスプロバイダはさらに、FLaaS(Federated Learning as a Service)を採用して、データアナリストが差分保護されたデータ上でFLトレーニングパイプラインを実行できるようにする。 差分プライバシの本質的な特性から、データブロックの強制されたプライバシレベルは、さまざまなトレーニングパイプラインに対応するために注意深いスケジューリングを必要とするプライバシ予算と見なすことができる。 既存のプライバシー予算スケジューリング研究は、効率性または公平性を個別に優先する。 本稿では,効率と公平性を共同で最適化する,新たなプライバシー予算スケジューリング機構dpbalanceを提案する。 まず、データアナリストレベルの支配的共有とFL固有のパフォーマンス指標を組み込んだ総合ユーティリティ機能を開発する。 次に、ラグランジュ乗算法と有効グリーディヒューリスティックスを用いて逐次割当機構を設計する。 DPBalance が Pareto efficiency, Sharing Incentive, Envy-Freeness, and Weak Strategy Proofness を満たすことを理論的に証明する。 また,プライバシ予算における公平性効率のトレードオフの存在を理論的に証明する。 DPBalanceは最先端のソリューションよりも優れており、平均効率改善は1.44\times \sim 3.49 \times$、平均フェアネス改善は1.37\times \sim 24.32 \times$である。

Federated learning (FL) has emerged as a prevalent distributed machine learning scheme that enables collaborative model training without aggregating raw data. Cloud service providers further embrace Federated Learning as a Service (FLaaS), allowing data analysts to execute their FL training pipelines over differentially-protected data. Due to the intrinsic properties of differential privacy, the enforced privacy level on data blocks can be viewed as a privacy budget that requires careful scheduling to cater to diverse training pipelines. Existing privacy budget scheduling studies prioritize either efficiency or fairness individually. In this paper, we propose DPBalance, a novel privacy budget scheduling mechanism that jointly optimizes both efficiency and fairness. We first develop a comprehensive utility function incorporating data analyst-level dominant shares and FL-specific performance metrics. A sequential allocation mechanism is then designed using the Lagrange multiplier method and effective greedy heuristics. We theoretically prove that DPBalance satisfies Pareto Efficiency, Sharing Incentive, Envy-Freeness, and Weak Strategy Proofness. We also theoretically prove the existence of a fairness-efficiency tradeoff in privacy budgeting. Extensive experiments demonstrate that DPBalance outperforms state-of-the-art solutions, achieving an average efficiency improvement of $1.44\times \sim 3.49 \times$, and an average fairness improvement of $1.37\times \sim 24.32 \times$.
翻訳日:2024-02-16 17:06:27 公開日:2024-02-15
# 絡み合いの誘導バイアスとしての交差注意拡散モデル

Diffusion Model with Cross Attention as an Inductive Bias for Disentanglement ( http://arxiv.org/abs/2402.09712v1 )

ライセンス: Link先を確認
Tao Yang, Cuiling Lan, Yan Lu, Nanning zheng(参考訳) 遠方表現学習は、観測データ内の本質的要因を抽出する。 これらの表現を教師なしの方法で分解することは特に困難であり、通常、調整された損失関数や特定の構造設計を必要とする。 本稿では,非交叉表現の学習を容易にするために,クロスアテンションを持つ拡散モデルが強力な帰納バイアスとなることを示す,新しい視点と枠組みを紹介する。 本稿では,概念トークンの集合に画像をエンコードし,それを画像再構成のための潜伏拡散条件として扱うことを提案する。 さらなる正規化がなければ、このフレームワークはベンチマークデータセット上で優れた不整合性能を達成し、複雑な設計で以前のすべてのメソッドを上回ります。 我々は,このモデルの機能に関する包括的アブレーション研究と可視化解析を行った。 これは、複雑な設計を必要とせず、クロスアテンションを持つ拡散モデルの強力な解離能力を明らかにする最初の研究である。 我々は、より洗練されたデータ分析と理解に向けて、不整合表現学習のための拡散を探究するためのさらなる調査を期待する。

Disentangled representation learning strives to extract the intrinsic factors within observed data. Factorizing these representations in an unsupervised manner is notably challenging and usually requires tailored loss functions or specific structural designs. In this paper, we introduce a new perspective and framework, demonstrating that diffusion models with cross-attention can serve as a powerful inductive bias to facilitate the learning of disentangled representations. We propose to encode an image to a set of concept tokens and treat them as the condition of the latent diffusion for image reconstruction, where cross-attention over the concept tokens is used to bridge the interaction between the encoder and diffusion. Without any additional regularization, this framework achieves superior disentanglement performance on the benchmark datasets, surpassing all previous methods with intricate designs. We have conducted comprehensive ablation studies and visualization analysis, shedding light on the functioning of this model. This is the first work to reveal the potent disentanglement capability of diffusion models with cross-attention, requiring no complex designs. We anticipate that our findings will inspire more investigation on exploring diffusion for disentangled representation learning towards more sophisticated data analysis and understanding.
翻訳日:2024-02-16 17:05:25 公開日:2024-02-15
# ノード重複によるコールドスタートリンク予測の改善

Node Duplication Improves Cold-start Link Prediction ( http://arxiv.org/abs/2402.09711v1 )

ライセンス: Link先を確認
Zhichun Guo, Tong Zhao, Yozen Liu, Kaiwen Dong, William Shiao, Neil Shah, Nitesh V. Chawla(参考訳) グラフニューラルネットワーク(GNN)はグラフ機械学習において顕著であり、リンク予測(LP)タスクで最先端のパフォーマンスを示している。 しかしながら、最近の研究では、GNNは全体的な性能が強いにもかかわらず、低次ノードで良い結果を出すのに苦労していることが示されている。 レコメンデーションシステムのようなlpの実用的応用においては,低次ノードのパフォーマンス向上が重要である。 本稿では,高次ノード上での性能を維持しつつ,低次ノード上でのGNNのLP性能の改善について検討し,NodeDupと呼ばれるシンプルながら効果的な拡張手法を提案する。 具体的には、nodedupは低次ノードを複製し、標準の教師付きlpトレーニングスキームに従う前に、ノードとその複製間のリンクを生成する。 低次ノードの'multi-view'パースペクティブを活用することで、nodedupは高次ノードのパフォーマンスを損なうことなく低次ノードのlpパフォーマンスが大幅に向上する。 さらに、プラグインとプレイの拡張モジュールとして、NodeDupは計算コストが非常に軽い既存のGNNにも容易に適用できる。 大規模な実験によると、NodeDupはGNNや最先端のコールドスタート手法と比較して、それぞれ、孤立ノード、低緯度ノード、温暖ノードの38.49%、13.34%、および6.76%の改善を達成した。

Graph Neural Networks (GNNs) are prominent in graph machine learning and have shown state-of-the-art performance in Link Prediction (LP) tasks. Nonetheless, recent studies show that GNNs struggle to produce good results on low-degree nodes despite their overall strong performance. In practical applications of LP, like recommendation systems, improving performance on low-degree nodes is critical, as it amounts to tackling the cold-start problem of improving the experiences of users with few observed interactions. In this paper, we investigate improving GNNs' LP performance on low-degree nodes while preserving their performance on high-degree nodes and propose a simple yet surprisingly effective augmentation technique called NodeDup. Specifically, NodeDup duplicates low-degree nodes and creates links between nodes and their own duplicates before following the standard supervised LP training scheme. By leveraging a ''multi-view'' perspective for low-degree nodes, NodeDup shows significant LP performance improvements on low-degree nodes without compromising any performance on high-degree nodes. Additionally, as a plug-and-play augmentation module, NodeDup can be easily applied to existing GNNs with very light computational cost. Extensive experiments show that NodeDup achieves 38.49%, 13.34%, and 6.76% improvements on isolated, low-degree, and warm nodes, respectively, on average across all datasets compared to GNNs and state-of-the-art cold-start methods.
翻訳日:2024-02-16 17:05:05 公開日:2024-02-15
# IBMヘビーヘックスアーキテクチャ上の線形深さQFT

Linear Depth QFT over IBM Heavy-hex Architecture ( http://arxiv.org/abs/2402.09705v1 )

ライセンス: Link先を確認
Xiangyu Gao, Yuwei Jin, Minghao Guo, Henry Chen, Eddy Z. Zhang(参考訳) 与えられた量子アルゴリズムをターゲットのハードウェアアーキテクチャにコンパイルすることは、最適化の問題である。 コンパイラは物理キュービットの結合グラフとゲート操作の依存関係を考慮に入れなければならない。 ハードウェアアーキテクチャの既存のノイズは、可能な限り実行サイクルの少ないコンパイルを必要とする。 既存のアプローチでは、マッピングを完遂するためにsatソルバやヒューリスティックスを使うが、これは長いコンパイル時間(例えば、時間経過後のタイムアウト)か、実行サイクル(例えば、指数関数的に増加する総サイクル数)の観点で準最適コンパイル結果の問題を引き起こす可能性がある。 本稿では,既存のIBMヘビーヘックスアーキテクチャに対する量子フーリエ変換(QFT)回路の効率的なマッピング手法を提案する。 このような提案は、まずアーキテクチャをダングリングキュービットを持つ直線からなる構造に変換し、次に生成された構造を再帰的にマッピングする。 この計算により、これらの構造の時間的複雑さに対して線形深度上限が存在し、特別な場合、5キュービットごとに1個のダングリングキュービットが存在する場合、時間的複雑さは5N+O(1)となる。 これらの結果は、最先端の手法よりも優れている。

Compiling a given quantum algorithm into a target hardware architecture is a challenging optimization problem. The compiler must take into consideration the coupling graph of physical qubits and the gate operation dependencies. The existing noise in hardware architectures requires the compilation to use as few running cycles as possible. Existing approaches include using SAT solver or heuristics to complete the mapping but these may cause the issue of either long compilation time (e.g., timeout after hours) or suboptimal compilation results in terms of running cycles (e.g., exponentially increasing number of total cycles). In this paper, we propose an efficient mapping approach for Quantum Fourier Transformation (QFT) circuits over the existing IBM heavy-hex architecture. Such proposal first of all turns the architecture into a structure consisting of a straight line with dangling qubits, and then do the mapping over this generated structure recursively. The calculation shows that there is a linear depth upper bound for the time complexity of these structures and for a special case where there is 1 dangling qubit in every 5 qubits, the time complexity is 5N+O(1). All these results are better than state of the art methods.
翻訳日:2024-02-16 17:04:38 公開日:2024-02-15
# スパースモデルのないスパースかつ忠実な説明

Sparse and Faithful Explanations Without Sparse Models ( http://arxiv.org/abs/2402.09702v1 )

ライセンス: Link先を確認
Yiyang Sun, Zhi Chen, Vittorio Orlandi, Tong Wang, Cynthia Rudin(参考訳) たとえモデルが世界規模で疎外されていなくても、そのモデルから決定されたことは、少数の機能によって正確かつ忠実に記述できる。 例えば、大口融資の申請は、信用履歴がないため、信用の信頼性に関する証拠を圧倒するため、誰かに拒否される可能性がある。 本研究では,機械学習モデルにおける空間性を測定する新しい手法であるスパース説明値(SEV)を紹介する。 上記のローン拒否例では、融資が拒否された理由を説明するのに1つの要素しか必要とされないため、sevは1である。 SEVは全体モデルの範囲ではなく、意思決定の間隔の尺度です。SEVが測定したように、たとえスパースでないとしても、多くの機械学習モデルが実際に低い決定の間隔を持っていることを示すことができます。 SEVはハイパーキューブ上の運動を用いて定義されており、実世界の制約を反映した運動制限を反映して、SEVを様々なモデルクラス上で一貫して定義することができる。 我々は、sevを精度を犠牲にすることなく削減し、グローバルにスパースモデルがなくても、スパースで完全に忠実な説明を提供するアルゴリズムを提案した。

Even if a model is not globally sparse, it is possible for decisions made from that model to be accurately and faithfully described by a small number of features. For instance, an application for a large loan might be denied to someone because they have no credit history, which overwhelms any evidence towards their creditworthiness. In this work, we introduce the Sparse Explanation Value (SEV), a new way of measuring sparsity in machine learning models. In the loan denial example above, the SEV is 1 because only one factor is needed to explain why the loan was denied. SEV is a measure of decision sparsity rather than overall model sparsity, and we are able to show that many machine learning models -- even if they are not sparse -- actually have low decision sparsity, as measured by SEV. SEV is defined using movements over a hypercube, allowing SEV to be defined consistently over various model classes, with movement restrictions reflecting real-world constraints. We proposed the algorithms that reduce SEV without sacrificing accuracy, providing sparse and completely faithful explanations, even without globally sparse models.
翻訳日:2024-02-16 17:04:17 公開日:2024-02-15
# シリコンフォトニクスにおけるフロケット非エルミタン皮膚効果のトポロジー遷移の観察

Observation of topology transition in Floquet non-Hermitian skin effects in silicon photonics ( http://arxiv.org/abs/2402.09700v1 )

ライセンス: Link先を確認
Zhiyuan Lin, Wange Song, Li-Wei Wang, Haoran Xin, Jiacheng Sun, Shengjie Wu, Chunyu Huang, Shining Zhu, Jian-Hua Jiang, and Tao Li(参考訳) 非エルミート物理学は非平衡現象の理解を深め、非エルミート皮膚効果 (non-hermitian skin effect, nhse) などの新しい効果を発見し、この分野に大きな革命をもたらした。 NHSEは通常、非相互結合を持つシステムで予測されるが、実験では実現が困難である。 非相互結合がなければ、NHSEはゲージ場と損失または利得(例えばフロケ非エルミート系)を持つ系にも現れる。 しかしながら、このFloquet NHSEは実験でほとんど探索されていない。 そこで我々は,シリコンフォトニクスプラットフォーム上に周期変調された光導波路におけるFloquet NHSEを実現する。 周期変調によって誘導される人工ゲージ場をエンジニアリングすることにより、様々なフロケ NHSE を観察し、その豊富な位相遷移を明らかにする。 注目すべきは、通常の一極性NHSEと、NHSEの方向反転を伴う非伝統的な双極性NHSEの遷移を発見することである。 基礎となる物理は、複素準エネルギー空間におけるバンドの巻線によって明らかにされ、同じ巻線を持つ孤立ループから反対巻線を持つ連結ループへの位相変化が生じる。 我々の研究は、ゲージフィールド間の相互作用と消散効果から生まれたFloquet NHSEへの新たなルートを広げ、光や他の波を操る基本的な新しい方法を提供する。

Non-Hermitian physics has greatly enriched our understanding of nonequilibrium phenomena and uncovered novel effects such as the non-Hermitian skin effect (NHSE) that has profoundly revolutionized the field. NHSE is typically predicted in systems with nonreciprocal couplings which, however, are difficult to realize in experiments. Without nonreciprocal couplings, the NHSE can also emerge in systems with coexisting gauge fields and loss or gain (e.g., in Floquet non-Hermitian systems). However, such Floquet NHSE remains largely unexplored in experiments. Here, we realize the Floquet NHSEs in periodically modulated optical waveguides integrated on a silicon photonics platform. By engineering the artificial gauge fields induced by the periodical modulation, we observe various Floquet NHSEs and unveil their rich topological transitions. Remarkably, we discover the transitions between the normal unipolar NHSEs and an unconventional bipolar NHSE which is accompanied by the directional reversal of the NHSEs. The underlying physics is revealed by the band winding in complex quasienergy space which undergoes a topology change from isolated loops with the same winding to linked loops with opposite windings. Our work unfolds a new route toward Floquet NHSEs originating from the interplay between gauge fields and dissipation effects and offers fundamentally new ways for steering light and other waves.
翻訳日:2024-02-16 17:03:57 公開日:2024-02-15
# フィルター間のエビデンスの組み合わせ

Combining Evidence Across Filtrations ( http://arxiv.org/abs/2402.09698v1 )

ライセンス: Link先を確認
Yo Joong Choe and Aaditya Ramdas(参考訳) 任意の時間価の逐次推論では、任意の許容推論手順は、任意の停止時間における期待が上界である非負のプロセスである、テストマリンタレとその複合一般化(e-processes)に基づいていなければならないことが知られている。 e-プロセスは、累積された証拠を結果のシーケンス上の複合ヌル仮説に対して定量化する。 本稿では,異なる情報集合,すなわちフィルタを用いて計算された電子プロセスを組み合わせる方法,すなわちヌル仮説について検討する。 同じ濾過で構築されたe-プロセスは(例えば平均化によって)無益に結合できるが、粗い濾過ではその妥当性がより細かい濾過では有効性に変換されないため、異なる濾過で構築されたe-プロセスは簡単には結合できない。 本稿では,このようなe-processsの具体例として,交換可能性テスト,独立性テスト,予測と遅延を評価・比較するテストについて論じる。 私たちの主な結果は、これらのe-プロセスは、蓄積された富の最大値に賭けを可能にする機能である調整器を使って、任意の細かい濾過に持ち上げることができるということを示しています。 また、結果の逐次推論手順のパワーを向上できるランダム化調整器を開発した。

In anytime-valid sequential inference, it is known that any admissible inference procedure must be based on test martingales and their composite generalization, called e-processes, which are nonnegative processes whose expectation at any arbitrary stopping time is upper-bounded by one. An e-process quantifies the accumulated evidence against a composite null hypothesis over a sequence of outcomes. This paper studies methods for combining e-processes that are computed using different information sets, i.e., filtrations, for a null hypothesis. Even though e-processes constructed on the same filtration can be combined effortlessly (e.g., by averaging), e-processes constructed on different filtrations cannot be combined as easily because their validity in a coarser filtration does not translate to validity in a finer filtration. We discuss three concrete examples of such e-processes in the literature: exchangeability tests, independence tests, and tests for evaluating and comparing forecasts with lags. Our main result establishes that these e-processes can be lifted into any finer filtration using adjusters, which are functions that allow betting on the running maximum of the accumulated wealth (thereby insuring against the loss of evidence). We also develop randomized adjusters that can improve the power of the resulting sequential inference procedure.
翻訳日:2024-02-16 17:03:33 公開日:2024-02-15
# エスペラントにおけるLangauge周波数と誤り補正の検討

An Analysis of Langauge Frequency and Error Correction for Esperanto ( http://arxiv.org/abs/2402.09696v1 )

ライセンス: Link先を確認
Junhong Liang(参考訳) 現在のGrammar Error Correction (GEC)イニシアチブは主要な言語に焦点を当てる傾向にあり、Esperantoのような低リソース言語にはあまり注目されていない。 本稿では,まずEo-GPデータセットを用いて包括的周波数解析を行うことにより,このギャップを埋める。 次に、eo-gecデータセットを紹介し、エラー識別のための詳細な言語的詳細をアノテートする。 GPT-3.5 と GPT-4 を応用して,GPT-4 は自動評価と人為評価の両方において GPT-3.5 よりも優れており,エスペラントの文法的特異性に対処する上での有効性と,あまり研究されていない言語に対する GEC 戦略を強化するための先進言語モデルの可能性を強調した。

Current Grammar Error Correction (GEC) initiatives tend to focus on major languages, with less attention given to low-resource languages like Esperanto. In this article, we begin to bridge this gap by first conducting a comprehensive frequency analysis using the Eo-GP dataset, created explicitly for this purpose. We then introduce the Eo-GEC dataset, derived from authentic user cases and annotated with fine-grained linguistic details for error identification. Leveraging GPT-3.5 and GPT-4, our experiments show that GPT-4 outperforms GPT-3.5 in both automated and human evaluations, highlighting its efficacy in addressing Esperanto's grammatical peculiarities and illustrating the potential of advanced language models to enhance GEC strategies for less commonly studied languages.
翻訳日:2024-02-16 17:03:09 公開日:2024-02-15
# オフライン強化学習に対するReward Poisoning攻撃

Reward Poisoning Attack Against Offline Reinforcement Learning ( http://arxiv.org/abs/2402.09695v1 )

ライセンス: Link先を確認
Yinglun Xu, Rohan Gumaste, Gagandeep Singh(参考訳) 深層ニューラルネットワークを用いた一般オフライン強化学習に対する報酬中毒攻撃の問題点について検討した。 我々は、攻撃者が学習アルゴリズムに完全に従わず、その予算が各データポイントの腐敗量と総摂動量の両方を制限することで制限されるブラックボックス脅威モデルを考える。 我々は 'policy contrast attack' と呼ばれる攻撃戦略を提案する。 ハイレベルな考え方は、ハイパフォーマンスなポリシーをハイパフォーマンスにしつつ、ハイパフォーマンスなポリシーを低パフォーマンスに見せることです。 我々の知る限り、一般のオフラインRL設定における最初のブラックボックス報酬中毒攻撃を提案する。 我々は攻撃設計に関する理論的知見を提供し、我々の攻撃が様々な種類の学習データセットにおける現在の最先端のオフラインRLアルゴリズムに対して効率的であることを実証的に示す。

We study the problem of reward poisoning attacks against general offline reinforcement learning with deep neural networks for function approximation. We consider a black-box threat model where the attacker is completely oblivious to the learning algorithm and its budget is limited by constraining both the amount of corruption at each data point, and the total perturbation. We propose an attack strategy called `policy contrast attack'. The high-level idea is to make some low-performing policies appear as high-performing while making high-performing policies appear as low-performing. To the best of our knowledge, we propose the first black-box reward poisoning attack in the general offline RL setting. We provide theoretical insights on the attack design and empirically show that our attack is efficient against current state-of-the-art offline RL algorithms in different kinds of learning datasets.
翻訳日:2024-02-16 17:02:51 公開日:2024-02-15
# ゼロショット低光度向上のための凍結発生器による種子最適化

Seed Optimization with Frozen Generator for Superior Zero-shot Low-light Enhancement ( http://arxiv.org/abs/2402.09694v1 )

ライセンス: Link先を確認
Yuxuan Gu and Yi Jin and Ben Wang and Zhixiang Wei and Xiaoxiao Ma and Pengyang Ling and Haoxuan Wang and Huaian Chen and Enhong Chen(参考訳) In this work, we observe that the generators, which are pre-trained on massive natural images, inherently hold the promising potential for superior low-light image enhancement against varying scenarios.Specifically, we embed a pre-trained generator to Retinex model to produce reflectance maps with enhanced detail and vividness, thereby recovering features degraded by low-light conditions.Taking one step further, we introduce a novel optimization strategy, which backpropagates the gradients to the input seeds rather than the parameters of the low-light enhancement model, thus intactly retaining the generative knowledge learned from natural images and achieving faster convergence speed. 事前学習された知識とシード最適化戦略を活かして、低照度拡張モデルは、強化された結果の現実性と忠実性を著しく調整し、低照度データセットをトレーニングすることなく、高品質な画像を迅速に生成することができる。 様々なベンチマークに関する広範囲な実験により,提案手法の質的,定量的に優れた結果が得られた。

In this work, we observe that the generators, which are pre-trained on massive natural images, inherently hold the promising potential for superior low-light image enhancement against varying scenarios.Specifically, we embed a pre-trained generator to Retinex model to produce reflectance maps with enhanced detail and vividness, thereby recovering features degraded by low-light conditions.Taking one step further, we introduce a novel optimization strategy, which backpropagates the gradients to the input seeds rather than the parameters of the low-light enhancement model, thus intactly retaining the generative knowledge learned from natural images and achieving faster convergence speed. Benefiting from the pre-trained knowledge and seed-optimization strategy, the low-light enhancement model can significantly regularize the realness and fidelity of the enhanced result, thus rapidly generating high-quality images without training on any low-light dataset. Extensive experiments on various benchmarks demonstrate the superiority of the proposed method over numerous state-of-the-art methods qualitatively and quantitatively.
翻訳日:2024-02-16 17:02:39 公開日:2024-02-15
# ロバスト学習型辞書

Robust Learning-Augmented Dictionaries ( http://arxiv.org/abs/2402.09687v1 )

ライセンス: Link先を確認
Ali Zeynali, Shahin Kamali, Mohammad Hajiesmaili(参考訳) 最適な一貫性とロバスト性を備えた辞書を実装するための,最初の学習拡張データ構造を提案する。 robustslというデータ構造は、データシーケンス内の要素のアクセス頻度の予測によって拡張されたスキップリストです。 適切な予測により、RobostSL は最適整合性(静的最適性を得る)を持つ。 同時に、各操作の対数実行時間を維持し、たとえ予測が逆向きに生成されるとしても、最適な堅牢性を確保する。 それゆえ、RobostSLはLin, Luo, and Woodruff (ICML 2022) と Cao et al. (arXiv 2023) の最近の学習強化データ構造の利点を全て備えている。 数値実験により、RobostSLは合成データと実データの両方を用いて代替データ構造より優れていた。

We present the first learning-augmented data structure for implementing dictionaries with optimal consistency and robustness. Our data structure, named RobustSL, is a skip list augmented by predictions of access frequencies of elements in a data sequence. With proper predictions, RobustSL has optimal consistency (achieves static optimality). At the same time, it maintains a logarithmic running time for each operation, ensuring optimal robustness, even if predictions are generated adversarially. Therefore, RobustSL has all the advantages of the recent learning-augmented data structures of Lin, Luo, and Woodruff (ICML 2022) and Cao et al. (arXiv 2023), while providing robustness guarantees that are absent in the previous work. Numerical experiments show that RobustSL outperforms alternative data structures using both synthetic and real datasets.
翻訳日:2024-02-16 17:02:24 公開日:2024-02-15
# 人間とAIの相互作用における「正の摩擦」の行動モデル探索

Exploring a Behavioral Model of "Positive Friction" in Human-AI Interaction ( http://arxiv.org/abs/2402.09683v1 )

ライセンス: Link先を確認
Zeya Chen, Ruth Schmidt(参考訳) シームレスで摩擦のないユーザエクスペリエンスを設計することは、応用行動科学と人工知能(ai)の両方において、長年にわたって主要なトレンドであり、望ましいアクションを簡単かつ効率的にすることの目標が、ユーザエクスペリエンスの摩擦を最小限に抑える努力に繋がる。 しかし、一部の環境では、反射を増やすために意図的な遅延を挿入すること、個人が自動的または偏りのある行動に頼らないこと、予期せぬ発見の機会を高めることなど、摩擦は真に有益である。 最近では、AIの普及と普及により、AIのユーザにとって摩擦がどのように役立つか、あるいは妨げられるかを調べる必要性が高まっている。また、開発プロセス(例えば、多様なチームで作業する)と、AIが提供物にどのように設計されているかの両方において、ポジティブな摩擦がAI実践者にとってどのような恩恵をもたらすかを考慮する必要があることも示唆されている。 本稿ではまず,aiを用いたユーザおよび開発者エクスペリエンスにおいて現在,摩擦がいかに有益であるかを特徴付ける「正の摩擦」モデルを提案し,これらの状況においてまだ存在しないであろう摩擦の必要性を診断し,特にaiの進歩が進展し,新たな機会が生まれるにつれて,正の摩擦がソリューション生成にどのように役立つかを示す。 そして、このモデルをAIユーザと開発者のコンテキストで探求し、ハイブリッドな"AI+ヒューマン"レンズを取り入れることの価値を提案し、さらなる探索のための質問を提案して結論付ける。

Designing seamless, frictionless user experiences has long been a dominant trend in both applied behavioral science and artificial intelligence (AI), in which the goal of making desirable actions easy and efficient informs efforts to minimize friction in user experiences. However, in some settings, friction can be genuinely beneficial, such as the insertion of deliberate delays to increase reflection, preventing individuals from resorting to automatic or biased behaviors, and enhancing opportunities for unexpected discoveries. More recently, the popularization and availability of AI on a widespread scale has only increased the need to examine how friction can help or hinder users of AI; it also suggests a need to consider how positive friction can benefit AI practitioners, both during development processes (e.g., working with diverse teams) and to inform how AI is designed into offerings. This paper first proposes a "positive friction" model that can help characterize how friction is currently beneficial in user and developer experiences with AI, diagnose the potential need for friction where it may not yet exist in these contexts, and inform how positive friction can be used to generate solutions, especially as advances in AI continue to be progress and new opportunities emerge. It then explores this model in the context of AI users and developers by proposing the value of taking a hybrid "AI+human" lens, and concludes by suggesting questions for further exploration.
翻訳日:2024-02-16 17:02:08 公開日:2024-02-15
# 注意前アライメント:マルチモーダル・ハテフルコンテンツ検出のための視覚的特徴とテクスチャ的特徴のアライメント

Align before Attend: Aligning Visual and Textual Features for Multimodal Hateful Content Detection ( http://arxiv.org/abs/2402.09738v1 )

ライセンス: Link先を確認
Eftekhar Hossain, Omar Sharif, Mohammed Moshiul Hoque, Sarah M. Preum(参考訳) マルチモーダルなヘイトフルコンテンツ検出は、視覚的およびテキスト的モダリティの複雑な推論を必要とする難しいタスクである。 したがって、中間融合による視覚的特徴とテキスト的特徴の相互作用を効果的に捉える意味のあるマルチモーダル表現を作成することが重要である。 従来の融合技術は、モダリティ特有の特徴に効果的に対応できない。 さらに、ほとんどの研究は英語に集中し、他の低リソース言語を見落としていた。 本稿では,マルチモーダルなヘイトフルコンテンツ検出のための文脈対応注意フレームワークを提案し,それを英語と非英語言語の両方で評価する。 提案手法は,視覚的特徴とテキスト的特徴を有意に整合させるアテンション層を含む。 このアライメントは、モダリティ固有の特徴を融合する前に選択的にフォーカスすることができる。 提案手法を2つのベンチマークヘイトフルミームデータセットであるvizで評価した。 MUTE (Bengali code-mixed) と MultiOFF (英語)。 評価結果から,提案手法は,muteおよびmultioffデータセットに対して69.7$%と70.3$%のf1スコアの有効性を示す。 スコアは、これらのデータセットの最先端システムに対して約2.5$%と3.2$%のパフォーマンス改善を示している。 私たちの実装はhttps://github.com/eftekhar-hossain/Bengali-Hateful-Memesで公開しています。

Multimodal hateful content detection is a challenging task that requires complex reasoning across visual and textual modalities. Therefore, creating a meaningful multimodal representation that effectively captures the interplay between visual and textual features through intermediate fusion is critical. Conventional fusion techniques are unable to attend to the modality-specific features effectively. Moreover, most studies exclusively concentrated on English and overlooked other low-resource languages. This paper proposes a context-aware attention framework for multimodal hateful content detection and assesses it for both English and non-English languages. The proposed approach incorporates an attention layer to meaningfully align the visual and textual features. This alignment enables selective focus on modality-specific features before fusing them. We evaluate the proposed approach on two benchmark hateful meme datasets, viz. MUTE (Bengali code-mixed) and MultiOFF (English). Evaluation results demonstrate our proposed approach's effectiveness with F1-scores of $69.7$% and $70.3$% for the MUTE and MultiOFF datasets. The scores show approximately $2.5$% and $3.2$% performance improvement over the state-of-the-art systems on these datasets. Our implementation is available at https://github.com/eftekhar-hossain/Bengali-Hateful-Memes.
翻訳日:2024-02-16 16:54:34 公開日:2024-02-15
# DFORM: 学習モデル間のダイナミクス評価のための微分型ベクトル場アライメント

DFORM: Diffeomorphic vector field alignment for assessing dynamics across learned models ( http://arxiv.org/abs/2402.09735v1 )

ライセンス: Link先を確認
Ruiqi Chen, Giacomo Vedovati, Todd Braver, ShiNung Ching(参考訳) リカレントニューラルネットワーク(RNN)のような動的システムモデルは、科学研究において仮説生成ツールとして人気が高まっている。 このようなネットワークのダイナミクスを評価することは、学習した生成メカニズムを理解するための鍵となる。 しかしながら、モデル間の学習されたダイナミクスの比較は、その固有非線形性と、事前の座標系に強制同値性がないため、困難である。 本稿では,DFORM(Diffomorphic vector field alignment for comparison dynamics across learned model)フレームワークを提案する。 DFORMは、学習したモデルの軌跡間の連続かつ最大1対1の写像を提供する非線形座標変換を学習し、それらの間の微分同相を近似する。 DFORM変換ベクトル場間のミスマッチは、2つのモデルの軌道類似性を定義し、滑らかな軌道と位相同値の概念を一般化する。 例えば、DFORMを標準神経科学タスクで訓練されたモデルに適用すると、学習力学はアトラクタのランドスケープに過度の違いがあるにもかかわらず、機能的に類似していることが分かる。

Dynamical system models such as Recurrent Neural Networks (RNNs) have become increasingly popular as hypothesis-generating tools in scientific research. Evaluating the dynamics in such networks is key to understanding their learned generative mechanisms. However, comparison of learned dynamics across models is challenging due to their inherent nonlinearity and because a priori there is no enforced equivalence of their coordinate systems. Here, we propose the DFORM (Diffeomorphic vector field alignment for comparing dynamics across learned models) framework. DFORM learns a nonlinear coordinate transformation which provides a continuous, maximally one-to-one mapping between the trajectories of learned models, thus approximating a diffeomorphism between them. The mismatch between DFORM-transformed vector fields defines the orbital similarity between two models, thus providing a generalization of the concepts of smooth orbital and topological equivalence. As an example, we apply DFORM to models trained on a canonical neuroscience task, showing that learned dynamics may be functionally similar, despite overt differences in attractor landscapes.
翻訳日:2024-02-16 16:54:17 公開日:2024-02-15
# エージェントは目的を知らなくてもよい

Agents Need Not Know Their Purpose ( http://arxiv.org/abs/2402.09734v1 )

ライセンス: Link先を確認
Paulo Garcia(参考訳) 人工知能が人間の価値観に合致するように振る舞うことを保証することは、一般にアライメントチャレンジと呼ばれる。 従来の研究は、有理エージェントは実用機能を最大化するような方法で行動し、特に知能のレベルが上昇するにつれて、必然的に人間の価値観と一致しない方法で振る舞うことを示していた。 以前の研究は、"真のユーティリティ関数"が存在しないことも示しており、ソリューションにはアライメントに対するより包括的なアプローチを含める必要がある。 本稿では, 有効な効用関数が既知のサブ関数と隠れたサブ関数の集合であるように構築されるエージェントについて述べる。 最大化される隠蔽成分はブラックボックスとして内部的に実装され、エージェントが検査するのを防ぐ。 最小化される既知のコンポーネントは、隠れたサブファンクションの知識である。 アーキテクチャ上の制約は、エージェントアクションが内部環境モデルをどのように進化させるかにさらに影響を与えます。 本研究では,設計者の意図の内的近似(すなわち,アライメントを推論する)を構築し,そのアーキテクチャと有効ユーティリティ関数の結果として,アライメントを最大化する,すなわち近似意図関数の最大化という振る舞いを示す。 逆説的に言えば、これは隠れたコンポーネントとして使われるユーティリティ機能に対して行われており、既存の技術とは対照的に、エージェントインテリジェンスの増加に伴ってアライメントが実際に改善される可能性を示している。

Ensuring artificial intelligence behaves in such a way that is aligned with human values is commonly referred to as the alignment challenge. Prior work has shown that rational agents, behaving in such a way that maximizes a utility function, will inevitably behave in such a way that is not aligned with human values, especially as their level of intelligence goes up. Prior work has also shown that there is no "one true utility function"; solutions must include a more holistic approach to alignment. This paper describes oblivious agents: agents that are architected in such a way that their effective utility function is an aggregation of a known and hidden sub-functions. The hidden component, to be maximized, is internally implemented as a black box, preventing the agent from examining it. The known component, to be minimized, is knowledge of the hidden sub-function. Architectural constraints further influence how agent actions can evolve its internal environment model. We show that an oblivious agent, behaving rationally, constructs an internal approximation of designers' intentions (i.e., infers alignment), and, as a consequence of its architecture and effective utility function, behaves in such a way that maximizes alignment; i.e., maximizing the approximated intention function. We show that, paradoxically, it does this for whatever utility function is used as the hidden component and, in contrast with extant techniques, chances of alignment actually improve as agent intelligence grows.
翻訳日:2024-02-16 16:54:00 公開日:2024-02-15
# LLMは幻覚を知っていますか? LLMの隠れ状態に関する実証的研究

Do LLMs Know about Hallucination? An Empirical Investigation of LLM's Hidden States ( http://arxiv.org/abs/2402.09733v1 )

ライセンス: Link先を確認
Hanyu Duan, Yi Yang, Kar Yan Tam(参考訳) 大きな言語モデル(LLM)は、現実ではない答えを補うことができ、幻覚として知られている。 本研究の目的は, LLM が幻覚をどの程度認識しているか, どのように, どの程度の程度で確認することである。 より具体的には、LLMが隠れた状態でどのように反応するかを、その答えが正解する時と幻覚する時とで確認する。 そこで本研究では,異なる幻覚条件下でllmの隠れ状態を調べるための実験フレームワークを提案する。 この枠組みに基づいて,llamaファミリーにおける言語モデルを用いた一連の実験を行った(touvron et al., 2023)。 実験結果から,LLMは本物の反応を処理する場合と製造時の反応が異なることが示唆された。 次に,実験結果の理解と説明に様々なモデル解釈手法を適用した。 さらに, 実証観測により, LLMの隠れ表現空間から誘導される誘導を用いて幻覚を緩和する可能性が示唆された。 この研究は、LLMが幻覚的な回答をいかに生み出すか、その頻度を下げる方法についての洞察を与えてくれると信じています。

Large Language Models (LLMs) can make up answers that are not real, and this is known as hallucination. This research aims to see if, how, and to what extent LLMs are aware of hallucination. More specifically, we check whether and how an LLM reacts differently in its hidden states when it answers a question right versus when it hallucinates. To do this, we introduce an experimental framework which allows examining LLM's hidden states in different hallucination situations. Building upon this framework, we conduct a series of experiments with language models in the LLaMA family (Touvron et al., 2023). Our empirical findings suggest that LLMs react differently when processing a genuine response versus a fabricated one. We then apply various model interpretation techniques to help understand and explain the findings better. Moreover, informed by the empirical observations, we show great potential of using the guidance derived from LLM's hidden representation space to mitigate hallucination. We believe this work provides insights into how LLMs produce hallucinated answers and how to make them occur less often.
翻訳日:2024-02-16 16:53:35 公開日:2024-02-15
# POBEVM: ターゲットとエッジを段階的に最適化するリアルタイムビデオマッチング

POBEVM: Real-time Video Matting via Progressively Optimize the Target Body and Edge ( http://arxiv.org/abs/2402.09731v1 )

ライセンス: Link先を確認
Jianming Xian(参考訳) 深層畳み込みニューラルネットワーク(CNN)ベースのアプローチは、ビデオマッティングにおいて大きなパフォーマンスを実現している。 これらの手法の多くは、ターゲットボディの正確なアルファ推定を生成することができるが、典型的にはファジィまたは不正なターゲットエッジを生成する。 これは通常以下の理由によって引き起こされる。 1) 現在の方法は,常に対象体及びエッジを無差別に扱う。 2) ターゲット本体は, ターゲットエッジの比率が小さいだけで, ターゲット全体を支配する。 第1の課題として,マッチング対象体とエッジ(SOBE)を別々に最適化するCNNベースのモジュールを提案する。 そこで本研究では,従来のアプローチよりもずっと軽量で,予測された目標エッジの大幅な改善を実現するため,マッティング対象体とエッジ(pobevm)を段階的に最適化することで,リアルタイムでトリマップフリーなビデオマッティング手法を提案する。 2つ目の問題として,ネットワークをマッチング対象エッジに強制する Edge-L1-Loss (ELL) 関数を提案する。 実験では,先行するtrimap-free matting法をd646とvideomatte240k(vm)の2つのデータセット,特にエッジ最適化において上回っていることを示す。

Deep convolutional neural networks (CNNs) based approaches have achieved great performance in video matting. Many of these methods can produce accurate alpha estimation for the target body but typically yield fuzzy or incorrect target edges. This is usually caused by the following reasons: 1) The current methods always treat the target body and edge indiscriminately; 2) Target body dominates the whole target with only a tiny proportion target edge. For the first problem, we propose a CNN-based module that separately optimizes the matting target body and edge (SOBE). And on this basis, we introduce a real-time, trimap-free video matting method via progressively optimizing the matting target body and edge (POBEVM) that is much lighter than previous approaches and achieves significant improvements in the predicted target edge. For the second problem, we propose an Edge-L1-Loss (ELL) function that enforces our network on the matting target edge. Experiments demonstrate our method outperforms prior trimap-free matting methods on both Distinctions-646 (D646) and VideoMatte240K(VM) dataset, especially in edge optimization.
翻訳日:2024-02-16 16:53:14 公開日:2024-02-15
# DOF:フォワード伝搬による高次微分演算子の高速化

DOF: Accelerating High-order Differential Operators with Forward Propagation ( http://arxiv.org/abs/2402.09730v1 )

ライセンス: Link先を確認
Ruichen Li, Chuwei Wang, Haotian Ye, Di He, Liwei Wang(参考訳) 偏微分方程式(PDE)を効率的に解くことは複雑な物理系を解析するのに不可欠である。 PDEの問題解決にディープラーニングを活用した最近の進歩は大きな可能性を秘めている。 しかし、物理情報ニューラルネットワーク(PINN)のような機械学習手法は、ニューラルネットワークパラメータ関数の高次微分を扱う際の課題に直面している。 ラプラシアン計算を高速化する最近の手法であるフォワード・ラプラシアンに着想を得て,一般二階微分演算子を精度を損なわずに計算するための効率的な計算フレームワークである微分演算子(DOF)を提案する。 提案手法が既存の手法よりも優れていることを厳密に証明し,効率の2倍の改善とメモリ消費の削減を実証した。 実験の結果,本手法は従来の自動微分(AutoDiff)手法を超越し,MLP構造を2倍改善し,ジャコビアン空間を20倍改善した。

Solving partial differential equations (PDEs) efficiently is essential for analyzing complex physical systems. Recent advancements in leveraging deep learning for solving PDE have shown significant promise. However, machine learning methods, such as Physics-Informed Neural Networks (PINN), face challenges in handling high-order derivatives of neural network-parameterized functions. Inspired by Forward Laplacian, a recent method of accelerating Laplacian computation, we propose an efficient computational framework, Differential Operator with Forward-propagation (DOF), for calculating general second-order differential operators without losing any precision. We provide rigorous proof of the advantages of our method over existing methods, demonstrating two times improvement in efficiency and reduced memory consumption on any architectures. Empirical results illustrate that our method surpasses traditional automatic differentiation (AutoDiff) techniques, achieving 2x improvement on the MLP structure and nearly 20x improvement on the MLP with Jacobian sparsity.
翻訳日:2024-02-16 16:52:56 公開日:2024-02-15
# モバイルエッジコンピューティングシステムにおけるカスタマイズVRサービスのためのFederated Promptベースの決定変換器

Federated Prompt-based Decision Transformer for Customized VR Services in Mobile Edge Computing System ( http://arxiv.org/abs/2402.09729v1 )

ライセンス: Link先を確認
Tailin Zhou, Jiadong Yu, Jun Zhang, and Danny H.K. Tsang(参考訳) 本稿では,モバイルエッジコンピューティング(MEC)システムにおいて,仮想リアリティ(VR)サービスをカスタマイズした異種ユーザに提供するリソース割り当てについて検討する。 まず,mecシステムのレイテンシ,ユーザアテンションレベル,優先解像度を考慮したユーザエクスペリエンス測定のためのqoe(quality of experience)メトリックを導入する。 次に、QoE最大化問題を資源割り当てに定式化し、すべてのMECサーバの多様なユーザ環境に適用可能な一般化されたポリシーを学習することを目的とした強化学習問題である。 一般化されたポリシーを学習するために,FedPromptDTと呼ばれるMECサーバ間で共通決定モデルを事前学習するために,フェデレートラーニング(FL)とプロンプトベースシーケンスモデリングを利用するフレームワークを提案する。 FLを使用することで、オフライントレーニング中にユーザのプライバシを保護すると同時に、ローカルMECデータの不足が解決される。 ユーザ環境とユーザ優先のアロケーションを統合するプロンプトの設計は、オンライン実行中のさまざまなユーザ環境への適応性を向上する。

This paper investigates resource allocation to provide heterogeneous users with customized virtual reality (VR) services in a mobile edge computing (MEC) system. We first introduce a quality of experience (QoE) metric to measure user experience, which considers the MEC system's latency, user attention levels, and preferred resolutions. Then, a QoE maximization problem is formulated for resource allocation to ensure the highest possible user experience,which is cast as a reinforcement learning problem, aiming to learn a generalized policy applicable across diverse user environments for all MEC servers. To learn the generalized policy, we propose a framework that employs federated learning (FL) and prompt-based sequence modeling to pre-train a common decision model across MEC servers, which is named FedPromptDT. Using FL solves the problem of insufficient local MEC data while protecting user privacy during offline training. The design of prompts integrating user-environment cues and user-preferred allocation improves the model's adaptability to various user environments during online execution.
翻訳日:2024-02-16 16:52:39 公開日:2024-02-15
# AbuseGPT:AIチャットボットを悪用してスマイッシングキャンペーンを創る

AbuseGPT: Abuse of Generative AI ChatBots to Create Smishing Campaigns ( http://arxiv.org/abs/2402.09728v1 )

ライセンス: Link先を確認
Ashfak Md Shibli and Mir Mehedi A. Pritom and Maanak Gupta(参考訳) smsフィッシング(sms phishing、smishing)は、個人情報の開示や、不正なモバイルテキストメッセージによる悪意のあるコンテンツのurlのクリックを誘導する脅威である。 近年では,会話生成型AIチャットボット(OpenAIのChatGPT,GoogleのBARDなど)の急速な進歩も観察されている。 これらのAIチャットボットには、確かに多くのユーティリティがあるが、脅威や攻撃を発生させる上で、どのように役割を果たせるかを体系的に理解していない。 本稿では,既存のAIベースのチャットボットサービスが,現実の攻撃者によってどのように悪用され,スマイッシングテキストを作成し,最終的にはより巧妙なスマイッシングキャンペーンにつながるかを示すために,AbuseGPT法を提案する。 我々の知る限りでは、これらの生成テキストベースのモデルがSMSフィッシング生成に与える影響を明らかに示す、既存の研究は存在しない。 したがって、この研究は、この新たなサイバーセキュリティの脅威に光を当てた最初の研究だと考えています。 我々は、攻撃者が既存の生成AIベースのチャットボットサービスの倫理的基準を活用できることを示す強力な実証的証拠を発見した。 また、生成AIベースのサービスの悪用を防ぎ、ユーザをスマイシング攻撃から守るための今後の研究方針やガイドラインについても論じる。

SMS phishing, also known as "smishing", is a growing threat that tricks users into disclosing private information or clicking into URLs with malicious content through fraudulent mobile text messages. In recent past, we have also observed a rapid advancement of conversational generative AI chatbot services (e.g., OpenAI's ChatGPT, Google's BARD), which are powered by pre-trained large language models (LLMs). These AI chatbots certainly have a lot of utilities but it is not systematically understood how they can play a role in creating threats and attacks. In this paper, we propose AbuseGPT method to show how the existing generative AI-based chatbot services can be exploited by attackers in real world to create smishing texts and eventually lead to craftier smishing campaigns. To the best of our knowledge, there is no pre-existing work that evidently shows the impacts of these generative text-based models on creating SMS phishing. Thus, we believe this study is the first of its kind to shed light on this emerging cybersecurity threat. We have found strong empirical evidences to show that attackers can exploit ethical standards in the existing generative AI-based chatbot services by crafting prompt injection attacks to create newer smishing campaigns. We also discuss some future research directions and guidelines to protect the abuse of generative AI-based services and safeguard users from smishing attacks.
翻訳日:2024-02-16 16:52:20 公開日:2024-02-15
# 極長文脈のギスト記憶を持つ人型読解エージェント

A Human-Inspired Reading Agent with Gist Memory of Very Long Contexts ( http://arxiv.org/abs/2402.09727v1 )

ライセンス: Link先を確認
Kuang-Huei Lee, Xinyun Chen, Hiroki Furuta, John Canny, Ian Fischer(参考訳) 現在のLarge Language Models (LLM) は、ある最大コンテキスト長に制限されるだけでなく、長い入力を堅牢に消費することができない。 この制限に対処するために,我々は,有効コンテキスト長を最大20倍まで増加させるllmエージェントシステムであるreadagentを提案する。 人間が長い文書を対話的に読み取る方法に着想を得て,LLMの先進的な言語機能を利用した単純なプロンプトシステムとしてReadAgentを実装し,(1)記憶エピソードに格納するコンテンツを決定すること,(2)記憶エピソードをgistメモリと呼ばれる短いエピソード記憶に圧縮すること,(3)ReadAgentがタスクを完了させるために関連する詳細を思い出す必要がある場合,元のテキストのパスを検索するためにアクションを取る。 本稿では,検索手法を用いてベースラインに対するReadAgentの評価を行い,元の長コンテキストを用いて,gistメモリを用いて評価する。 これらの評価は、QuALITY、NarrativeQA、QMSumの3つの長文読解タスクにおいて行われる。 ReadAgentは、有効コンテキストウィンドウを3~20倍拡張しながら、3つのタスクのベースラインを上回ります。

Current Large Language Models (LLMs) are not only limited to some maximum context length, but also are not able to robustly consume long inputs. To address these limitations, we propose ReadAgent, an LLM agent system that increases effective context length up to 20x in our experiments. Inspired by how humans interactively read long documents, we implement ReadAgent as a simple prompting system that uses the advanced language capabilities of LLMs to (1) decide what content to store together in a memory episode, (2) compress those memory episodes into short episodic memories called gist memories, and (3) take actions to look up passages in the original text if ReadAgent needs to remind itself of relevant details to complete a task. We evaluate ReadAgent against baselines using retrieval methods, using the original long contexts, and using the gist memories. These evaluations are performed on three long-document reading comprehension tasks: QuALITY, NarrativeQA, and QMSum. ReadAgent outperforms the baselines on all three tasks while extending the effective context window by 3-20x.
翻訳日:2024-02-16 16:51:52 公開日:2024-02-15
# エラー露光と一貫性規則化による非自己回帰機械翻訳の改善

Improving Non-autoregressive Machine Translation with Error Exposure and Consistency Regularization ( http://arxiv.org/abs/2402.09725v1 )

ライセンス: Link先を確認
Xinran Chen, Sufeng Duan, Gongshen Liu(参考訳) IR-NAT(Iterative-Refinemennt-based NAT)フレームワークの1つであるConditional Masked Language Model (CMLM)では、マスク付き低信頼トークンの再予測にマスク予測パラダイムを採用している。 しかし、CMLMはトレーニングと推論の間にデータ分散の相違に悩まされ、観察されたトークンは2つのケースで異なる形で生成される。 本稿では,エラー露光と整合正則化(EECR)のトレーニング手法を用いてこの問題に対処する。 訓練中のモデル予測に基づく混合シーケンスを構築し,不完全な観察条件下でマスクトークンを最適化する手法を提案する。 また,異なる観測条件下でのマスクトークンのデータ分布を制約し,トレーニングと推論のギャップを狭めるための一貫性学習手法を設計する。 5つの翻訳ベンチマークにおける実験では、ベースモデルと比較して平均0.68 bleuスコアと 0.40 bleuスコアが得られ、cmlmc-eecrはトランスフォーマーと同等の翻訳品質で最高の性能を達成している。 実験の結果,本手法の有効性が示された。

Being one of the IR-NAT (Iterative-refinemennt-based NAT) frameworks, the Conditional Masked Language Model (CMLM) adopts the mask-predict paradigm to re-predict the masked low-confidence tokens. However, CMLM suffers from the data distribution discrepancy between training and inference, where the observed tokens are generated differently in the two cases. In this paper, we address this problem with the training approaches of error exposure and consistency regularization (EECR). We construct the mixed sequences based on model prediction during training, and propose to optimize over the masked tokens under imperfect observation conditions. We also design a consistency learning method to constrain the data distribution for the masked tokens under different observing situations to narrow down the gap between training and inference. The experiments on five translation benchmarks obtains an average improvement of 0.68 and 0.40 BLEU scores compared to the base models, respectively, and our CMLMC-EECR achieves the best performance with a comparable translation quality with the Transformer. The experiments results demonstrate the effectiveness of our method.
翻訳日:2024-02-16 16:51:28 公開日:2024-02-15
# 高アフィン変換に適応した領域特徴記述子

Region Feature Descriptor Adapted to High Affine Transformations ( http://arxiv.org/abs/2402.09724v1 )

ライセンス: Link先を確認
Shaojie Zhang, Yinghui Wang, Peixuan Liu, Jinlong Yang, Tao Yan, Liangyi Huang, and Mingfeng Wang(参考訳) 画像が高アフィン変換を行う場合のグレースケール特徴情報の表現に効果のない特徴ディスクリプタの問題に対処するため,分類を用いてアフィン変換をシミュレートした領域特徴ディスクリプタを提案する。 提案手法は当初,異なるアフィン次数を持つ画像を分類し,アフィン変換をシミュレートし,新たな画像群を生成する。 その後、この新しい画像集合上の特徴点の近傍情報を算出する。 最後に、特徴点が属する最大安定極端領域のグレースケールヒストグラムと特徴点領域のグレイスケールセントロイドに対する正規化位置とを組み合わせて記述子を生成する。 アフィン変換のシナリオで特徴マッチングメトリクスを比較した実験の結果,提案する記述器は従来の記述器と比較して高い精度と頑健性を示すことがわかった。 さらに、他のディスクリプタと統合すると堅牢性を示す。

To address the issue of feature descriptors being ineffective in representing grayscale feature information when images undergo high affine transformations, leading to a rapid decline in feature matching accuracy, this paper proposes a region feature descriptor based on simulating affine transformations using classification. The proposed method initially categorizes images with different affine degrees to simulate affine transformations and generate a new set of images. Subsequently, it calculates neighborhood information for feature points on this new image set. Finally, the descriptor is generated by combining the grayscale histogram of the maximum stable extremal region to which the feature point belongs and the normalized position relative to the grayscale centroid of the feature point's region. Experimental results, comparing feature matching metrics under affine transformation scenarios, demonstrate that the proposed descriptor exhibits higher precision and robustness compared to existing classical descriptors. Additionally, it shows robustness when integrated with other descriptors.
翻訳日:2024-02-16 16:51:07 公開日:2024-02-15
# 限られた予算下でのプロンプト学習のためのベストアーム識別

Best Arm Identification for Prompt Learning under a Limited Budget ( http://arxiv.org/abs/2402.09723v1 )

ライセンス: Link先を確認
Chengshuai Shi, Kun Yang, Jing Yang and Cong Shen(参考訳) 大きな言語モデル(LLM)の驚くべき命令追従能力は、適切なプロンプトを自動的に学習することへの関心を高めている。 しかし、多くの効果的な手法が提案されているが、学習プロセス中に発生するコスト(例えば、llmへのアクセスと応答の評価)は考慮されていない。 この制限を克服するために、この研究は、有限予算制約を即時学習に明示的に組み込む。 原則的ソリューションの開発に向けて,マルチアームバンディット(MAB)における即時学習と固定予算ベストアーム識別(BAI-FB)の新たな接続を確立する。 この関係に基づいて,BAI-FBの力を利用して,システム的に学習する汎用フレームワークTRIPLE(BesT aRm Identification for Prompt LEarning)を提案する。 プロンプト学習のユニークな特徴は、クラスタリングと関数近似のアイデアを活用し、2つの組込みに基づくtripleの拡張に繋がる。 GPT 3.5 と Llama2 を併用した複数の順調なタスクに対する大規模な実験は、制限された予算制約を満たすとともに、以前のベースラインよりもTRIPLE の大幅な性能向上を示した。

The remarkable instruction-following capability of large language models (LLMs) has sparked a growing interest in automatically learning suitable prompts. However, while many effective methods have been proposed, the cost incurred during the learning process (e.g., accessing LLM and evaluating the responses) has not been considered. To overcome this limitation, this work explicitly incorporates a finite budget constraint into prompt learning. Towards developing principled solutions, a novel connection is established between prompt learning and fixed-budget best arm identification (BAI-FB) in multi-armed bandits (MAB). Based on this connection, a general framework TRIPLE (besT aRm Identification for Prompt LEarning) is proposed to harness the power of BAI-FB in prompt learning systematically. Unique characteristics of prompt learning further lead to two embedding-based enhancements of TRIPLE by exploiting the ideas of clustering and function approximation. Extensive experiments on multiple well-adopted tasks using both GPT 3.5 and Llama2 demonstrate the significant performance improvement of TRIPLE over the previous baselines while satisfying the limited budget constraints.
翻訳日:2024-02-16 16:50:51 公開日:2024-02-15
# reg-nf: 神経野内における暗黙的表面の効率的な登録

Reg-NF: Efficient Registration of Implicit Surfaces within Neural Fields ( http://arxiv.org/abs/2402.09722v1 )

ライセンス: Link先を確認
Stephen Hausler, David Hall, Sutharsan Mahendren and Peyman Moghadam(参考訳) 座標ベースのニューラルネットワークであるニューラルネットワークは、最近、暗黙的にシーンを表現することで人気を集めている。 点雲のような明示的な表現に基づく古典的な方法とは対照的に、ニューラルネットワークは3次元幾何学と外観をコンパクトでロボット工学の応用に理想的な方法で表現できる連続的なシーン表現を提供する。 しかし、これらの連続的な暗黙的表現を直接利用して、複数のニューラルネットワークの登録を限定的に検討している。 本稿では,2つの任意のニューラルネットワーク間の相対的6-dof変換を最適化したreg-nf(reg-nf)について述べる。 Reg-NFの主な構成要素は、双方向の登録損失、多視点表面サンプリング、ボリューム符号距離関数(SDF)の利用である。 登録問題を評価するための新しいニューラルフィールドデータセットのアプローチについて紹介する。 実験とアブレーション実験を徹底的に実施し,本手法の性能を解明するとともに,未学習環境におけるニューラルネットワークの利用に関するオープンな課題について,研究コミュニティに今後の方向性を提供するための限界についても検討した。

Neural fields, coordinate-based neural networks, have recently gained popularity for implicitly representing a scene. In contrast to classical methods that are based on explicit representations such as point clouds, neural fields provide a continuous scene representation able to represent 3D geometry and appearance in a way which is compact and ideal for robotics applications. However, limited prior methods have investigated registering multiple neural fields by directly utilising these continuous implicit representations. In this paper, we present Reg-NF, a neural fields-based registration that optimises for the relative 6-DoF transformation between two arbitrary neural fields, even if those two fields have different scale factors. Key components of Reg-NF include a bidirectional registration loss, multi-view surface sampling, and utilisation of volumetric signed distance functions (SDFs). We showcase our approach on a new neural field dataset for evaluating registration problems. We provide an exhaustive set of experiments and ablation studies to identify the performance of our approach, while also discussing limitations to provide future direction to the research community on open challenges in utilizing neural fields in unconstrained environments.
翻訳日:2024-02-16 16:50:30 公開日:2024-02-15
# 学習エージェントを説得する

Persuading a Learning Agent ( http://arxiv.org/abs/2402.09721v1 )

ライセンス: Link先を確認
Tao Lin, Yiling Chen(参考訳) 主旨がコミットメントパワーを持っておらず、エージェントが主旨の信号に応答するためにアルゴリズムを用いて学習するベイズ説得問題(より一般的には、完全な情報を持つ一般化主従問題)について検討する。 この問題を, ほぼベスト対応剤を用いた一括一般化主エージェント問題に還元する。 この削減により、エージェントが文脈非回帰学習アルゴリズムを使用する場合、プリンシパルは、従来の非学習モデルにおいて、プリンシパルの最適ユーティリティに任意に近いユーティリティをコミットメントで保証することができ、もしエージェントが文脈非相対学習アルゴリズムを使用する場合、プリンシパルは、コミットメントを伴う非学習モデルにおいて最適なユーティリティよりもはるかに多くのユーティリティを得ることができない。 学習モデルにおけるプリンシパルの取得可能なユーティリティと非学習モデルの違いは、エージェントの後悔(swap-regret)によって制限される。 エージェントが平均に基づく学習アルゴリズム(非学習だが非学習的)を使用する場合、プリンシパルは非学習モデルよりもはるかに優れている。 これらの結論はベイズ的説得だけでなく、スタックルバーグゲームや契約設計を含む完全な情報を持つ一般の主エージェント問題にも当てはまる。

We study a repeated Bayesian persuasion problem (and more generally, any generalized principal-agent problem with complete information) where the principal does not have commitment power and the agent uses algorithms to learn to respond to the principal's signals. We reduce this problem to a one-shot generalized principal-agent problem with an approximately-best-responding agent. This reduction allows us to show that: if the agent uses contextual no-regret learning algorithms, then the principal can guarantee a utility that is arbitrarily close to the principal's optimal utility in the classic non-learning model with commitment; if the agent uses contextual no-swap-regret learning algorithms, then the principal cannot obtain any utility significantly more than the optimal utility in the non-learning model with commitment. The difference between the principal's obtainable utility in the learning model and the non-learning model is bounded by the agent's regret (swap-regret). If the agent uses mean-based learning algorithms (which can be no-regret but not no-swap-regret), then the principal can do significantly better than the non-learning model. These conclusions hold not only for Bayesian persuasion, but also for any generalized principal-agent problem with complete information, including Stackelberg games and contract design.
翻訳日:2024-02-16 16:50:09 公開日:2024-02-15
# 共有制御線路からの相関ノイズが2量子ゲートに及ぼす影響

Effects of correlated magnetic noises from shared control lines on two-qubit gate ( http://arxiv.org/abs/2402.09719v1 )

ライセンス: Link先を確認
Yinan Fang(参考訳) 半導体に基づくスピン量子ビットにおけるスケーラブルな量子計算デバイスを構築するための最近の提案は、量子ビット制御のオーバーヘッドを低減するために共有制御ラインを導入している。 原則として、共有制御のノイズは、マルチキュービットゲートに相関誤差を導入し、それらの設定において高いゲート忠実性を達成するのに役立つ。 本稿では,クロスバーアーキテクチャに動機づけられた特定の2量子ビットモデルにおいて,異なる相関ノイズを識別できるランダム化ベンチマークプロトコルに基づく手法を提案する。

Recent proposals for building scalable quantum computational devices in semi-conductor based spin qubits introduce shared control lines in order to reduce the overhead of qubits controls. In principle, noises from the shared controls could introduce correlated errors to multi-qubit gates, and identifying them will be helpful for achieving higher gate fidelity in those setups. Here, we introduce a method based on the randomized benchmarking protocols that is capable of distinguishing among different correlated noises in a particular two-qubit model motivated by the crossbar architecture.
翻訳日:2024-02-16 16:49:49 公開日:2024-02-15
# コントラスト学習とセルフアテンションを用いた時間軸の逐次推薦

Sequential Recommendation on Temporal Proximities with Contrastive Learning and Self-Attention ( http://arxiv.org/abs/2402.09784v1 )

ライセンス: Link先を確認
Hansol Jung, Hyunwoo Seo and ChieHyeon Lim(参考訳) 逐次リコメンデータシステムは、過去のインタラクションからユーザの好みを識別し、後続の項目を最適に予測する。 従来のディープラーニングモデルと最新のトランスフォーマーモデルでは、ユーザとテーマのインタラクションにおける一方向および双方向のパターンが捉えられているが、個人の行動パターンや社会的傾向パターンといった時間的文脈の重要性は未検討のままである。 特に最近のモデルは、類似した時間枠の間、ユーザ間で暗黙的に発生するユーザのアクションの類似性を無視することが多い。 これらのモデルは主に変換器の自己認識機構を適用し、個々のユーザアクションの時間的コンテキストを考慮する。 一方、この適応は、アイテム間の相互作用における水平時間的近接性、例えば1週間以内のアイテム購入と1ヶ月以内のアイテム購入の区別を考慮しても依然として限定的である。 これらのギャップに対処するため,ユーザ間相互作用の時間的近さを考慮し,コントラスト学習と自己注意法を含む,TemProxRecというシーケンシャルレコメンデーションモデルを提案する。 提案するコントラスト学習法は,ユーザ間の密接な時間間隔で選択された項目の表現を学習する。 同時に,提案手法は,絶対埋め込みと相対埋め込みの両方を用いて,ユーザシーケンス内の時間的および位置的コンテキストを符号化する。 このようにして、私たちのTemProxRecは、特定の時間枠内のユーザとイテムのインタラクションに基づいて、関連するアイテムを正確に予測します。 temproxrecに関する包括的実験によって検証し、ベンチマークデータセットで既存のモデルと一貫して比較し、垂直および水平の時間軸を逐次レコメンデーションとして考慮することの重要性を示す。

Sequential recommender systems identify user preferences from their past interactions to predict subsequent items optimally. Although traditional deep-learning-based models and modern transformer-based models in previous studies capture unidirectional and bidirectional patterns within user-item interactions, the importance of temporal contexts, such as individual behavioral and societal trend patterns, remains underexplored. Notably, recent models often neglect similarities in users' actions that occur implicitly among users during analogous timeframes-a concept we term vertical temporal proximity. These models primarily adapt the self-attention mechanisms of the transformer to consider the temporal context in individual user actions. Meanwhile, this adaptation still remains limited in considering the horizontal temporal proximity within item interactions, like distinguishing between subsequent item purchases within a week versus a month. To address these gaps, we propose a sequential recommendation model called TemProxRec, which includes contrastive learning and self-attention methods to consider temporal proximities both across and within user-item interactions. The proposed contrastive learning method learns representations of items selected in close temporal periods across different users to be close. Simultaneously, the proposed self-attention mechanism encodes temporal and positional contexts in a user sequence using both absolute and relative embeddings. This way, our TemProxRec accurately predicts the relevant items based on the user-item interactions within a specific timeframe. We validate this work through comprehensive experiments on TemProxRec, consistently outperforming existing models on benchmark datasets as well as showing the significance of considering the vertical and horizontal temporal proximities into sequential recommendation.
翻訳日:2024-02-16 16:45:35 公開日:2024-02-15
# 分布的選好報酬モデルによる群衆フィードバックの調整

Aligning Crowd Feedback via Distributional Preference Reward Modeling ( http://arxiv.org/abs/2402.09764v1 )

ライセンス: Link先を確認
Dexun Li, Cong Zhang, Kuicai Dong, Derrick Goh Xin Deik, Ruiming Tang, Yong Liu(参考訳) 深層強化学習は、大規模言語モデル(LLM)と人間の好みの整合に広く用いられている。 しかし、従来の報酬モデリングは主に個人の選択したコホートによって提供される人間のアノテーションに依存している。 このような依存は意図せず、これらの注釈者の傾斜を反映して歪んだモデルをもたらす可能性があるため、より広い人口の期待を適切に表現できない。 本稿では,大規模言語モデルと多様な人間の選好のセットを連携させる,単純かつ効果的なフレームワークである分散選好報酬モデル(dprm)を提案する。 この目的のために,選好傾向の変動に動的に適応可能なベータ分布によって選好を特徴付ける。 その上で, DPRMを校正し, 選好分布に適合させる最適輸送に基づく損失を設計する。 最後に, LLM ポリシーを微調整し, 住民に好まれる応答を生成するために, 期待される報酬を利用する。 実験の結果,DPRM は LLM と人口嗜好の整合性を著しく向上させ,より正確で偏りがなく,文脈的に適切な応答をもたらすことが示された。

Deep Reinforcement Learning is widely used for aligning Large Language Models (LLM) with human preference. However, the conventional reward modelling has predominantly depended on human annotations provided by a select cohort of individuals. Such dependence may unintentionally result in models that are skewed to reflect the inclinations of these annotators, thereby failing to represent the expectations of the wider population adequately. In this paper, we introduce the Distributional Preference Reward Model (DPRM), a simple yet effective framework to align large language models with a diverse set of human preferences. To this end, we characterize the preferences by a beta distribution, which can dynamically adapt to fluctuations in preference trends. On top of that, we design an optimal-transportation-based loss to calibrate DPRM to align with the preference distribution. Finally, the expected reward is utilized to fine-tune an LLM policy to generate responses favoured by the population. Our experiments show that DPRM significantly enhances the alignment of LLMs with population preference, yielding more accurate, unbiased, and contextually appropriate responses.
翻訳日:2024-02-16 16:45:01 公開日:2024-02-15
# 慣性センサを用いた歩行に基づくユーザデモグラフィ推定のためのフレームワーク

A Framework For Gait-Based User Demography Estimation Using Inertial Sensors ( http://arxiv.org/abs/2402.09761v1 )

ライセンス: Link先を確認
Chinmay Prakash Swami(参考訳) ヒトの歩行は様々な用途に重要な運動手段を提供することが示されている。 人間の歩行パターンを認識することは、セキュリティ、仮想現実ゲーム、医療リハビリテーション、病気の特定など、さまざまな応用領域で広く採用されている。 さらに,ウェアラブル慣性センサは歩行を記録できるだけでなく,ユーザのデモグラフィーの予測にも広く利用されている。 ディープラーニングなどの機械学習技術と慣性センサーの信号を組み合わせることで,人間の歩行パターンの認識とユーザデモグラフィーの推定に有望な成果が得られた。 しかし、このような深層学習モデルのブラックボックスの性質は、研究者がモデルの予測の背後にある理由を明らかにするのを妨げる。 そこで本稿では,ディープラーニングとレイヤワイズ関連伝播(LRP)を利用して,年齢や性別などのユーザの復刻を識別する上で重要な役割を担う重要な変数を同定する。 このアプローチの有効性を評価するために,745名の被験者からなる大規模センサベース歩行データセット上で,ディープニューラルネットワークモデルをトレーニングし,ユーザの年齢と性別を同定する。 LRPを用いて歩行パターンの特徴付けに関連する変数を同定する。 そこで我々は,慣性信号に基づいてユーザの復刻を識別する専門家である非線形MLモデルの解釈を可能にする。 このアプローチは、年齢や性別に関連する歩行パラメータを臨床医に提供できるだけでなく、歩行障害の分析や診断にも拡張できると考えています。

Human gait has been shown to provide crucial motion cues for various applications. Recognizing patterns in human gait has been widely adopted in various application areas such as security, virtual reality gaming, medical rehabilitation, and ailment identification. Furthermore, wearable inertial sensors have been widely used for not only recording gait but also to predict users' demography. Machine Learning techniques such as deep learning, combined with inertial sensor signals, have shown promising results in recognizing patterns in human gait and estimate users' demography. However, the black-box nature of such deep learning models hinders the researchers from uncovering the reasons behind the model's predictions. Therefore, we propose leveraging deep learning and Layer-Wise Relevance Propagation (LRP) to identify the important variables that play a vital role in identifying the users' demography such as age and gender. To assess the efficacy of this approach we train a deep neural network model on a large sensor-based gait dataset consisting of 745 subjects to identify users' age and gender. Using LRP we identify the variables relevant for characterizing the gait patterns. Thus, we enable interpretation of non-linear ML models which are experts in identifying the users' demography based on inertial signals. We believe this approach can not only provide clinicians information about the gait parameters relevant to age and gender but also can be expanded to analyze and diagnose gait disorders.
翻訳日:2024-02-16 16:44:42 公開日:2024-02-15
# チャンキング自由文脈検索を用いた接地言語モデル

Grounding Language Model with Chunking-Free In-Context Retrieval ( http://arxiv.org/abs/2402.09760v1 )

ライセンス: Link先を確認
Hongjin Qian, Zheng Liu, Kelong Mao, Yujia Zhou, Zhicheng Dou(参考訳) 本稿では,新しいチャンキングフリー・インコンテキスト(CFIC)検索手法を提案する。 従来のragシステムは、長い文書の処理や無関係なコンテンツをフィルタリングすることの難しさから、正確な証拠テキストによる応答の接地に苦労することが多い。 ドキュメントチャンキングや長いコンテキストを扱うために言語モデルを適用するといった一般的なソリューションには、制限がある。 これらの手法は、テキストのセマンティックコヒーレンスを妨害するか、証拠検索におけるノイズや不正確な問題に効果的に対処できないかのどちらかである。 CFICは従来のチャンキングプロセスを回避することでこれらの課題に対処する。 文書のエンコードされた隠された状態をインコンテキスト検索に利用し、自動攻撃的復号を用いてユーザクエリに必要な特定のエビデンステキストを正確に識別し、チャンキングの必要をなくす。 CFICはさらに2つのデコード戦略、すなわちConstrained Sentence Prefix DecodingとSkip Decodingを導入することで強化されている。 これらの戦略は、検索プロセスの効率を向上するだけでなく、生成した基底テキスト証拠の忠実さを確実に維持する。 オープンなQAデータセットに対するCFICの評価は、関連性および正確な証拠の検索において優位性を示し、従来の手法よりも大幅に改善された。 文書チャンキングを不要にすることで、CFICはより合理化され、効果的で効率的な検索ソリューションを提供し、RAGシステム分野における貴重な進歩となる。

This paper presents a novel Chunking-Free In-Context (CFIC) retrieval approach, specifically tailored for Retrieval-Augmented Generation (RAG) systems. Traditional RAG systems often struggle with grounding responses using precise evidence text due to the challenges of processing lengthy documents and filtering out irrelevant content. Commonly employed solutions, such as document chunking and adapting language models to handle longer contexts, have their limitations. These methods either disrupt the semantic coherence of the text or fail to effectively address the issues of noise and inaccuracy in evidence retrieval. CFIC addresses these challenges by circumventing the conventional chunking process. It utilizes the encoded hidden states of documents for in-context retrieval, employing auto-aggressive decoding to accurately identify the specific evidence text required for user queries, eliminating the need for chunking. CFIC is further enhanced by incorporating two decoding strategies, namely Constrained Sentence Prefix Decoding and Skip Decoding. These strategies not only improve the efficiency of the retrieval process but also ensure that the fidelity of the generated grounding text evidence is maintained. Our evaluations of CFIC on a range of open QA datasets demonstrate its superiority in retrieving relevant and accurate evidence, offering a significant improvement over traditional methods. By doing away with the need for document chunking, CFIC presents a more streamlined, effective, and efficient retrieval solution, making it a valuable advancement in the field of RAG systems.
翻訳日:2024-02-16 16:44:20 公開日:2024-02-15
# 効率的な言語適応型事前学習:ポーランド語のための最先端大規模言語モデルの拡張

Efficient Language Adaptive Pre-training: Extending State-of-the-Art Large Language Models for Polish ( http://arxiv.org/abs/2402.09759v1 )

ライセンス: Link先を確認
Szymon Ruci\'nski(参考訳) 本研究では,ポーランド語文を生成するための基礎言語モデル (LLM) について検討する。 最初のステップはLanguage Adaptive Pre-Training (LAPT)で、2億7600万のポーランドのトークンからなる3.11GBの高品質データセットを提供する。 LAPTに続いて、9つのKLEJ課題を解決するための微調整が加えられた。 訓練されたモデルCurie-7B-v1は、デコーダベースのポーランドモデルの中で、最低パープレクティリティ3.02のポーランド語テキストを生成するだけでなく、9タスク中8タスクで2%未満のギャップを持つポーランド語エンコーダ-デコーダモデルのパフォーマンスと密接に競合する。 Curie-7B-v1は典型的なデータセットの約2-3%を使ってポーランド語を学習した。 LAPTはコンシューマGPUを使用して5日以内で完了し、メソッドの効率性を強調した。 ポーランド語におけるモデルの習熟度は大幅に向上し、パラメータの1.2%をトレーニングすることで既存のLLMに新しい言語を追加するこのアプローチが実現可能であることを示した。 コミュニティの協力的発展に貢献するため、このモデルはオープンソースとしてリリースされた。

This study explores the potential of fine-tuning foundational English Large Language Models (LLMs) for generating Polish text. The first step involves Language Adaptive Pre-training (LAPT) on a high-quality dataset of 3.11 GB, consisting of 276 million Polish tokens. The LAPT is followed by additional fine-tuning aimed at solving nine KLEJ challenges. Our trained model Curie-7B-v1 not only generates Polish text with the lowest perplexity of 3.02 among decoder-based Polish models but also closely rivals the performance of the best Polish encoder-decoder models with a less than 2% gap on 8 out of 9 tasks. Curie-7B-v1 used approximately 2-3% of a typical dataset size to learn Polish. The LAPT was completed in less than five days using a consumer GPU, highlighting the method's efficiency. The proficiency of the model in Polish was significantly enhanced, demonstrating the viability of this approach for adding new languages to existing LLMs by training just 1.2% of its parameters. To contribute to the community's collaborative progress, the model has been released as open-source.
翻訳日:2024-02-16 16:43:51 公開日:2024-02-15
# 補間アウェア非パラメトリック統計推論

Extrapolation-Aware Nonparametric Statistical Inference ( http://arxiv.org/abs/2402.09758v1 )

ライセンス: Link先を確認
Niklas Pfister and Peter B\"uhlmann(参考訳) 我々は、外挿を条件変数の支持の外部で評価された条件関数(例えば、条件予測や条件量子化)の統計的推測の種類として定義する。 この種の外挿は、多くのデータ分析アプリケーションで起こり、考慮しなければ結果の結論を無効にすることができる。 補間はパラメトリックモデルでは単純であるが、非パラメトリックモデルでは困難になる。 本研究では、非パラメトリック統計モデルを拡張して、外挿を明示的に許容し、外挿認識の結論を引き出すために、既存の推論技術と組み合わせることができる外挿仮定のクラスを導入する。 提案された外挿仮定のクラスは、条件関数が観測された支持範囲内において、その最小かつ最大方向微分を達成することを規定している。 本稿では,予測や不確かさの定量化など,いくつかの統計応用へのフレームワークの適用例を示す。 さらに,既存の非パラメトリック推定値の調整に使用可能な一貫した推定手順を提案する。 この手順はシミュレーションデータと実世界データの両方で実証的に評価される。

We define extrapolation as any type of statistical inference on a conditional function (e.g., a conditional expectation or conditional quantile) evaluated outside of the support of the conditioning variable. This type of extrapolation occurs in many data analysis applications and can invalidate the resulting conclusions if not taken into account. While extrapolating is straightforward in parametric models, it becomes challenging in nonparametric models. In this work, we extend the nonparametric statistical model to explicitly allow for extrapolation and introduce a class of extrapolation assumptions that can be combined with existing inference techniques to draw extrapolation-aware conclusions. The proposed class of extrapolation assumptions stipulate that the conditional function attains its minimal and maximal directional derivative, in each direction, within the observed support. We illustrate how the framework applies to several statistical applications including prediction and uncertainty quantification. We furthermore propose a consistent estimation procedure that can be used to adjust existing nonparametric estimates to account for extrapolation by providing lower and upper extrapolation bounds. The procedure is empirically evaluated on both simulated and real-world data.
翻訳日:2024-02-16 16:43:30 公開日:2024-02-15
# Robust SVD Made Easy: 大規模データ解析のための高速で信頼性の高いアルゴリズム

Robust SVD Made Easy: A fast and reliable algorithm for large-scale data analysis ( http://arxiv.org/abs/2402.09754v1 )

ライセンス: Link先を確認
Sangil Han, Kyoowon Kim, Sungkyu Jung(参考訳) 特異値分解(SVD)は、機械学習と統計データ解析において重要なツールである。 しかし、データマトリックスの外れ値に非常に影響を受けやすい。 既存のロバストなSVDアルゴリズムは、ロバスト性のために速度を犠牲にしたり、わずかに外れ値が存在する場合に失敗することが多い。 本研究は, 正則化SVDと呼ばれる効率的なアルゴリズムを導入し, 正則化SVD近似を高感度で, 計算能力が高く, 特異ベクトルの正確な近似を提供する。 提案アルゴリズムは、標準の低ランクSVDアルゴリズムの2つの応用のみを適切に拡張し、計算時間において競合するアルゴリズムよりも大幅に優れている。 本研究では,データ汚染に対する近似特異ベクトルとその部分空間のロバスト性を評価するために,行列値入力のための新しい分解点の概念を導入する。 理論的および経験的分析により,本アルゴリズムは標準SVDとその修正よりも高い分解点を示すことが示された。 高次元マイクロアレイデータセットのロバスト低ランク近似やロバスト主成分分析などの応用におけるアプローチの有効性を実証的に検証する。 全体として,svd近似に対する高効率でロバストな解を示し,異常値が存在する場合の既存のアルゴリズムの限界を克服する。

The singular value decomposition (SVD) is a crucial tool in machine learning and statistical data analysis. However, it is highly susceptible to outliers in the data matrix. Existing robust SVD algorithms often sacrifice speed for robustness or fail in the presence of only a few outliers. This study introduces an efficient algorithm, called Spherically Normalized SVD, for robust SVD approximation that is highly insensitive to outliers, computationally scalable, and provides accurate approximations of singular vectors. The proposed algorithm achieves remarkable speed by utilizing only two applications of a standard reduced-rank SVD algorithm to appropriately scaled data, significantly outperforming competing algorithms in computation times. To assess the robustness of the approximated singular vectors and their subspaces against data contamination, we introduce new notions of breakdown points for matrix-valued input, including row-wise, column-wise, and block-wise breakdown points. Theoretical and empirical analyses demonstrate that our algorithm exhibits higher breakdown points compared to standard SVD and its modifications. We empirically validate the effectiveness of our approach in applications such as robust low-rank approximation and robust principal component analysis of high-dimensional microarray datasets. Overall, our study presents a highly efficient and robust solution for SVD approximation that overcomes the limitations of existing algorithms in the presence of outliers.
翻訳日:2024-02-16 16:43:13 公開日:2024-02-15
# ヘルツレベル分解能と超認識能力を備えたベクトル分光計

Vector spectrometer with Hertz-level resolution and super-recognition capability ( http://arxiv.org/abs/2402.09752v1 )

ライセンス: Link先を確認
Ting Qing, Shupeng Li, Huashan Yang, Lihan Wang, Yijie Fang, Xiaohu Tang, Meihui Cao, Jianming Lu, Jijun He, Junqiu Liu, Yueguang Lv, Shilong Pan(参考訳) 高分解能光分光計は、信号の複雑な特性の解明、レーザー周波数の決定、物理定数の測定、物質の同定、バイオセンシングの進歩に不可欠である。 しかし、従来の分光計は、しばしばスペクトル分解能、波長範囲、精度のトレードオフに対処する。 さらに、高分解能でも分光分析中に重なり合うスペクトル線を解消することは大きな課題である。 本稿では、広帯域光周波数ホッピング、超微細マイクロ波光走査、ベクトル検出を組み合わせた超高分解能ベクトル分光計を提案する。 プログラム可能な周波数ホッピングレーザーを開発し, サブhzライン幅とhzレベルの周波数安定性, それぞれ4桁と6桁の改善を, 最先端の波長可変レーザーと比較した。 また、変調非線形性やマルチチャネルクロストークによる測定誤差を除去する非対称光送信機と受信機を設計した。 結果として得られるベクトル分光計は、前例のない2Hzの周波数分解能を示し、33nmの範囲を4桁超えた。 高分解能ベクトル解析により,重なり合うスペクトル線の分離能力が47%以上向上し,多種多様な物質のリアルタイム同定が大幅に合理化していることがわかった。 この技術は、10khz以下の解像度で光学分光計のギャップを埋め、ベクター計測が機能に革命をもたらす。

High-resolution optical spectrometers are crucial in revealing intricate characteristics of signals, determining laser frequencies, measuring physical constants, identifying substances, and advancing biosensing applications. Conventional spectrometers, however, often grapple with inherent trade-offs among spectral resolution, wavelength range, and accuracy. Furthermore, even at high resolution, resolving overlapping spectral lines during spectroscopic analyses remains a huge challenge. Here, we propose a vector spectrometer with ultrahigh resolution, combining broadband optical frequency hopping, ultrafine microwave-photonic scanning, and vector detection. A programmable frequency-hopping laser was developed, facilitating a sub-Hz linewidth and Hz-level frequency stability, an improvement of four and six orders of magnitude, respectively, compared to those of state-of-the-art tunable lasers. We also designed an asymmetric optical transmitter and receiver to eliminate measurement errors arising from modulation nonlinearity and multi-channel crosstalk. The resultant vector spectrometer exhibits an unprecedented frequency resolution of 2 Hz, surpassing the state-of-the-art by four orders of magnitude, over a 33-nm range. Through high-resolution vector analysis, we observed that group delay information enhances the separation capability of overlapping spectral lines by over 47%, significantly streamlining the real-time identification of diverse substances. Our technique fills the gap in optical spectrometers with resolutions below 10 kHz and enables vector measurement to embrace revolution in functionality.
翻訳日:2024-02-16 16:42:50 公開日:2024-02-15
# 芸術創造における大規模言語モデルの可能性を探る:創造的プログラミングにおけるコラボレーションとリフレクション

Exploring the Potential of Large Language Models in Artistic Creation: Collaboration and Reflection on Creative Programming ( http://arxiv.org/abs/2402.09750v1 )

ライセンス: Link先を確認
Anqi Wang, Zhizhuo Yin, Yulu Hu, Yuanyuan Mao, Pan Hui(参考訳) 近年,大規模言語モデル (LLM) の可能性はプログラミング支援に広く利用されている。 しかし、現在の研究は、アーティストとaiのコラボレーションにおける創造的なコーディングにおけるllmのアーティストの可能性を探求していない。 我々の研究は、そのようなコラボレーションによって創造過程におけるリフレクションタイプのアーティストを探索する。 プログラム全体と複数のサブタスクを呼び出すという,2つの一般的なコラボレーションアプローチを比較した。 本研究はアーティストの異なる刺激反射を2つの異なる方法で示す。 また,実験データと質的インタビューを含む2つの手法を用いて,2つのコラボレーションにおけるリフレクションタイプとユーザパフォーマンス,ユーザ満足度,主観的体験の相関性を示す。 この意味で、創造的コーディングにおけるLLMの芸術的可能性を明らかにする。 一方、アーティストの視点からの人間とAIのコラボレーションの批判的なレンズを提供し、AI支援の創造的タスクの将来的な仕事のための設計提案を述べる。

Recently, the potential of large language models (LLMs) has been widely used in assisting programming. However, current research does not explore the artist potential of LLMs in creative coding within artist and AI collaboration. Our work probes the reflection type of artists in the creation process with such collaboration. We compare two common collaboration approaches: invoking the entire program and multiple subtasks. Our findings exhibit artists' different stimulated reflections in two different methods. Our finding also shows the correlation of reflection type with user performance, user satisfaction, and subjective experience in two collaborations through conducting two methods, including experimental data and qualitative interviews. In this sense, our work reveals the artistic potential of LLM in creative coding. Meanwhile, we provide a critical lens of human-AI collaboration from the artists' perspective and expound design suggestions for future work of AI-assisted creative tasks.
翻訳日:2024-02-16 16:42:26 公開日:2024-02-15
# $\mathcal{pt}$-symmetric quantum rabi model:解と例外点

The $\mathcal{PT}$-symmetric quantum Rabi model: Solutions and exceptional points ( http://arxiv.org/abs/2402.09749v1 )

ライセンス: Link先を確認
Jiong Li, Yi-Cheng Wang, Li-Wei Duan, Qing-Hu Chen(参考訳) 非エルミート的な1光子と2光子量子ラビモデル(QRM)はボゴリューボフ作用素のアプローチによってそれぞれ解かれる。 正確な解に対する超越関数は導出され、その零点は完全なスペクトルを生成する。 例外点(EP)は、エネルギーに関する超越関数とその微分を同時に消滅させることで識別することができる。 EPは、隣り合う2つの励起エネルギーレベルに形成され、より高いエネルギーレベルで低い結合強度に移行する。 一光子 QRM におけるよく知られた一般化回転波近似法は、その非エルミート式にも拡張され、得られた解析EPは正確な値とよく一致し、シミュレーション力学はこのモデルの基本的特徴を記述することができる。 非常に興味深いことに、非エルミート2光子 QRM の共鳴状態の下では、同じパリティと奇光子数内の同じフォトニック部分空間に属する最低2つの励起状態が交差し、ボーは常に実エネルギーレベルを持つ。 この交差点におけるそのようなEPは完全に新しい、なぜなら2つのレベルのエネルギーは純粋に実数であり、非エルミート系における従来のEPとは対照的であるからである。 両方の非エルミート系 QRM に対して、忠実度感受性は、非エルミート系における最近の観測と一致し、EP において負の無限大となる。

The non-Hermitian one-photon and two-photon quantum Rabi models (QRMs) within imaginary couplings are respectively solved through the Bogoliubov operators approach. Transcendental functions responsible for exact solutions are derived, whose zeros produce the complete spectra. Exceptional points (EPs) can be identified with simultaneously vanishing transcendental function and its derivative with respect to energy. The EP is formed in the two nearest-neighboring excited energy levels, and shifts to the lower coupling strength at higher energy levels. The well-known generalized rotating-wave approximation method in the one-photon QRM is also extended to its non-Hermitian counterpart, and the obtained analytical EPs agree quite well with the exact ones, and the simulated dynamics can describes the basic features of this model. Very interestingly, under the resonant condition in the non-Hermitian two-photon QRM, the lowest two excited states which belong to the same parity and in the same photonic subspace within odd photon numbers can cross, and boh always have real energy levels. Such an EP at this crossing point is totally new, because the energies of the two levels are purely real, in sharp contrast to the conventional EP in the non-Hermitian systems. For both non-Hermitian QRMs, the fidelity susceptibility goes to negative infinity at the EPs, consistent with the recent observations in the non-Hermitian systems.
翻訳日:2024-02-16 16:42:11 公開日:2024-02-15
# 大規模言語モデルのためのモデル圧縮と効率的な推論:調査

Model Compression and Efficient Inference for Large Language Models: A Survey ( http://arxiv.org/abs/2402.09748v1 )

ライセンス: Link先を確認
Wenxiao Wang, Wei Chen, Yicong Luo, Yongliu Long, Zhengkai Lin, Liye Zhang, Binbin Lin, Deng Cai, and Xiaofei He(参考訳) トランスフォーマーベースの大規模言語モデルは大きな成功を収めた。 しかしながら、推論プロセス中に発生する大きなメモリと計算コストは、リソースに制約されたデバイスに大規模モデルをデプロイすることを困難にしている。 本稿では,大規模言語モデルの圧縮と効率的な推論手法について,アルゴリズムの観点から検討する。 分類学に関しては、より小さなモデルと同様に、大きな言語モデルの圧縮と加速のアルゴリズムは、量子化、プルーニング、蒸留、コンパクトアーキテクチャ設計、動的ネットワークに分類される。 しかし、大きな言語モデルは、小さいモデルに比べて2つの顕著な特徴がある: (1) 圧縮アルゴリズムの多くは、圧縮後のモデルに微調整や再訓練を必要とする。 大きなモデルの最も顕著な側面は、モデルの微調整やトレーニングに関連する非常に高いコストである。 したがって、量子化やプルーニングなどの大規模モデルの多くのアルゴリズムは、チューニング不要なアルゴリズムを探索し始める。 2) 大規模モデルでは,単一タスクのパフォーマンスよりも汎用性と一般化が重視される。 したがって、知識蒸留のような多くのアルゴリズムは、圧縮後の汎用性と一般化を維持する方法に焦点を当てている。 これらの2つの特徴は初期の大規模モデルではあまり顕著ではなかったので、大きな言語モデルを中型モデルと 'real' 大規模モデルにさらに区別する。 さらに,基本的な圧縮アルゴリズムやアクセラレーションアルゴリズムをサポートし,ユーザのモデルのデプロイを大いに促進する,大規模モデルの効率的な推論のための成熟したフレームワークについても紹介する。

Transformer based large language models have achieved tremendous success. However, the significant memory and computational costs incurred during the inference process make it challenging to deploy large models on resource-constrained devices. In this paper, we investigate compression and efficient inference methods for large language models from an algorithmic perspective. Regarding taxonomy, similar to smaller models, compression and acceleration algorithms for large language models can still be categorized into quantization, pruning, distillation, compact architecture design, dynamic networks. However, Large language models have two prominent characteristics compared to smaller models: (1) Most of compression algorithms require finetuning or even retraining the model after compression. The most notable aspect of large models is the very high cost associated with model finetuning or training. Therefore, many algorithms for large models, such as quantization and pruning, start to explore tuning-free algorithms. (2) Large models emphasize versatility and generalization rather than performance on a single task. Hence, many algorithms, such as knowledge distillation, focus on how to preserving their versatility and generalization after compression. Since these two characteristics were not very pronounced in early large models, we further distinguish large language models into medium models and ``real'' large models. Additionally, we also provide an introduction to some mature frameworks for efficient inference of large models, which can support basic compression or acceleration algorithms, greatly facilitating model deployment for users.
翻訳日:2024-02-16 16:41:28 公開日:2024-02-15
# less is more: 限られた資源下での網膜疾患認識のためのアンサンブル学習

Less is more: Ensemble Learning for Retinal Disease Recognition Under Limited Resources ( http://arxiv.org/abs/2402.09747v1 )

ライセンス: Link先を確認
Jiahao Wang, Hong Peng, Shengchao Chen, Sufen Ren(参考訳) 網膜光コヒーレンス断層撮影(OCT)画像は、後眼セグメントの健康に重要な洞察を与える。 したがって、自動画像解析手法の進歩は、臨床医や研究者に定量的データを提供し、インフォームド・意思決定の促進に不可欠である。 深層学習(DL)に基づくアプローチの適用は、これらの分析タスクの実行において、労働集約的手動分析と比較して顕著なパフォーマンスを示し、広範囲に牽引されている。 しかし、Retinal OCT画像の取得は、プライバシー問題やリソース集約的なラベル付け手順に起因した課題をしばしば示しており、DLモデルは優れたパフォーマンスを達成するために大量のデータを必要とするという一般的な考え方とは矛盾する。 さらに、利用可能な計算資源の制限は、特に先進国や国において、高性能な医療人工知能の進歩を制限する。 本稿では,限られた資源(データ,計算など)で網膜疾患を認識するための新しいアンサンブル学習機構を提案する。 このメカニズムは、複数の事前訓練されたモデルからの洞察を活用し、その知識を網膜CT画像に転送し適応させる。 このアプローチは、ラベル付きデータに限定された場合でも堅牢なモデルを確立し、スクラッチから学習するために必要な広範なパラメータの配列を不要にする。 実世界のデータセットに対する包括的実験により、ラベル付きデータセットを極度に制限した場合でも、提案手法は網膜CT画像を認識する上で優れた性能が得られることが示された。 さらに,本手法は大規模パラメータの学習の必要性を排除し,低リソースシナリオへの展開に適している。

Retinal optical coherence tomography (OCT) images provide crucial insights into the health of the posterior ocular segment. Therefore, the advancement of automated image analysis methods is imperative to equip clinicians and researchers with quantitative data, thereby facilitating informed decision-making. The application of deep learning (DL)-based approaches has gained extensive traction for executing these analysis tasks, demonstrating remarkable performance compared to labor-intensive manual analyses. However, the acquisition of Retinal OCT images often presents challenges stemming from privacy concerns and the resource-intensive labeling procedures, which contradicts the prevailing notion that DL models necessitate substantial data volumes for achieving superior performance. Moreover, limitations in available computational resources constrain the progress of high-performance medical artificial intelligence, particularly in less developed regions and countries. This paper introduces a novel ensemble learning mechanism designed for recognizing retinal diseases under limited resources (e.g., data, computation). The mechanism leverages insights from multiple pre-trained models, facilitating the transfer and adaptation of their knowledge to Retinal OCT images. This approach establishes a robust model even when confronted with limited labeled data, eliminating the need for an extensive array of parameters, as required in learning from scratch. Comprehensive experimentation on real-world datasets demonstrates that the proposed approach can achieve superior performance in recognizing Retinal OCT images, even when dealing with exceedingly restricted labeled datasets. Furthermore, this method obviates the necessity of learning extensive-scale parameters, making it well-suited for deployment in low-resource scenarios.
翻訳日:2024-02-16 16:40:49 公開日:2024-02-15
# WEFix: 効率的なWebエンドツーエンドフレークテストのための明示的ウェイトの自動生成

WEFix: Intelligent Automatic Generation of Explicit Waits for Efficient Web End-to-End Flaky Tests ( http://arxiv.org/abs/2402.09745v1 )

ライセンス: Link先を確認
Xinyue Liu, Zihe Song, Weike Fang, Wei Yang, Weihang Wang(参考訳) Webのエンドツーエンド(e2e)テストは、Webアプリケーションのワークフローを評価する。 実際のユーザシナリオをシミュレートし、アプリケーションのフローが期待通りに振る舞うことを保証します。 しかし、web e2eテストは不安定なことで悪名高く、コードを変更することなく一貫性のない結果を生み出すことができる。 共通するフラキネスの1つは、テストコードとテスト中のクライアント側のコードとの間の非決定論的実行順序によって引き起こされる。 特に、uiベースのフレキネスは、クライアント側のコード実行に関する知識が限られているため、修正する上で特に一般的で困難な問題として現れます。 本稿では,Web e2e テストにおいて UI ベースのフレキネスの修正コードを自動生成する WEFix を提案する。 私たちのアプローチの核心は、ブラウザのui変更を利用してクライアント側のコード実行を予測し、適切なwait oracleを生成することです。 我々は、wefixの有効性と効率を評価し、人気のある7つの実世界のプロジェクトによる122のweb e2eflakyテストと比較する。 その結果、WEFixはオーバーヘッドを劇的に減らし(3.7$\times$から1.25$\times$へ)、高い正しさ(98%)を達成した。

Web end-to-end (e2e) testing evaluates the workflow of a web application. It simulates real-world user scenarios to ensure the application flows behave as expected. However, web e2e tests are notorious for being flaky, i.e., the tests can produce inconsistent results despite no changes to the code. One common type of flakiness is caused by nondeterministic execution orders between the test code and the client-side code under test. In particular, UI-based flakiness emerges as a notably prevalent and challenging issue to fix because the test code has limited knowledge about the client-side code execution. In this paper, we propose WEFix, a technique that can automatically generate fix code for UI-based flakiness in web e2e testing. The core of our approach is to leverage browser UI changes to predict the client-side code execution and generate proper wait oracles. We evaluate the effectiveness and efficiency of WEFix against 122 web e2e flaky tests from seven popular real-world projects. Our results show that WEFix dramatically reduces the overhead (from 3.7$\times$ to 1.25$\times$) while achieving a high correctness (98%).
翻訳日:2024-02-16 16:39:29 公開日:2024-02-15
# AI病院 : 臨床診断における内科医としてのLLMの相互評価と連携

AI Hospital: Interactive Evaluation and Collaboration of LLMs as Intern Doctors for Clinical Diagnosis ( http://arxiv.org/abs/2402.09742v1 )

ライセンス: Link先を確認
Zhihao Fan, Jialong Tang, Wei Chen, Siyuan Wang, Zhongyu Wei, Jun Xi, Fei Huang, Jingren Zhou(参考訳) 医療におけるLarge Language Models (LLMs) の導入は大きな進歩である。 しかし、このアプリケーションは、そのインタラクティブな潜在能力を十分に活用していない、差別的および質問応答タスクに限定されている。 この制限に対処するため,本稿では,リアルタイム対話型診断環境を構築するためのフレームワークであるAI Hospitalを提案する。 手順をシミュレートするために,我々は高品質な医療記録を収集し,患者,検査官,医療監督エージェントを作成する。 AI HospitalはLLMのインタラクティブな評価とコラボレーションに使用される。 まず,多視点医療評価(MVME)ベンチマークを作成し,様々なLSMが内科医の対話的診断を行う。 その後, 診断精度を向上させるため, 医院長の監督のもと, 反復的な議論と紛争解決プロセスを伴う協調的なメカニズムを導入する。 実験では,AI病院の信頼性を検証した。 その結果, 臨床相談におけるLLMの適用可能性だけでなく, 紛争解決に焦点を当てた協調手法の有効性も確認できた。

The incorporation of Large Language Models (LLMs) in healthcare marks a significant advancement. However, the application has predominantly been limited to discriminative and question-answering tasks, which does not fully leverage their interactive potential. To address this limitation, our paper presents AI Hospital, a framework designed to build a real-time interactive diagnosis environment. To simulate the procedure, we collect high-quality medical records to create patient, examiner, and medical director agents. AI Hospital is then utilized for the interactive evaluation and collaboration of LLMs. Initially, we create a Multi-View Medical Evaluation (MVME) benchmark where various LLMs serve as intern doctors for interactive diagnosis. Subsequently, to improve diagnostic accuracy, we introduce a collaborative mechanism that involves iterative discussions and a dispute resolution process under the supervision of the medical director. In our experiments, we validate the reliability of AI Hospital. The results not only explore the feasibility of apply LLMs in clinical consultation but also confirm the effectiveness of the dispute resolution focused collaboration method.
翻訳日:2024-02-16 16:38:53 公開日:2024-02-15
# QuRating: 学習言語モデルのための高品質データの選択

QuRating: Selecting High-Quality Data for Training Language Models ( http://arxiv.org/abs/2402.09739v1 )

ライセンス: Link先を確認
Alexander Wettig, Aatmik Gupta, Saumya Malik, Danqi Chen(参考訳) 高品質な事前学習データの選択は、言語モデルを作成する上で重要であるが、既存の方法は単純なヒューリスティックに依存している。 本稿では,人間が直感的に知覚するテキストの抽象的性質を捉えた事前学習データ選択手法であるquratingを提案する。 本稿では,書体,専門知識,事実とトリビア,教育的価値の4つの特性について検討する。 LLMはこれらの品質を識別でき、テキストの質を直接評価するよりも、テキストのペアの判断が優れていることが分かりました。 ペアワイズ判断からスカラー評価を学習するためにquraterモデルをトレーニングし,4つの基準それぞれに品質評価を付した260bトレーニングコーパスにアノテートする。 実験では,品質評価の異なる30Bトークンを選択し,選択したデータに基づいて1.3Bパラメータ言語モデルを訓練する。 品質と多様性のバランスをとることが重要であることが分かっています。 ドキュメント上のロジットとして品質評価を使用してサンプルする場合、モデルがベースラインよりも複雑度が低く、コンテキスト内学習のパフォーマンスが向上します。 データ選択以外にも、トレーニングデータセットを変更することなくパフォーマンスを向上させるトレーニングカリキュラムを構築するために、品質評価を使用します。 品質評価を幅広く分析し、その特性、バイアス、より広い意味について論じる。

Selecting high-quality pre-training data is important for creating capable language models, but existing methods rely on simple heuristics. We introduce QuRating, a method for selecting pre-training data that captures the abstract qualities of texts which humans intuitively perceive. In this paper, we investigate four qualities - writing style, required expertise, facts & trivia, and educational value. We find that LLMs are able to discern these qualities and observe that they are better at making pairwise judgments of texts than at rating the quality of a text directly. We train a QuRater model to learn scalar ratings from pairwise judgments, and use it to annotate a 260B training corpus with quality ratings for each of the four criteria. In our experiments, we select 30B tokens according to the different quality ratings and train 1.3B-parameter language models on the selected data. We find that it is important to balance quality and diversity, as selecting only the highest-rated documents leads to poor results. When we sample using quality ratings as logits over documents, our models achieve lower perplexity and stronger in-context learning performance than baselines. Beyond data selection, we use the quality ratings to construct a training curriculum which improves performance without changing the training dataset. We extensively analyze the quality ratings and discuss their characteristics, biases, and wider implications.
翻訳日:2024-02-16 16:38:35 公開日:2024-02-15
# オーディオ再生のための拡散モデル

Diffusion Models for Audio Restoration ( http://arxiv.org/abs/2402.09821v1 )

ライセンス: Link先を確認
Jean-Marie Lemercier, Julius Richter, Simon Welker, Eloi Moliner, Vesa V\"alim\"aki,Timo Gerkmann(参考訳) オーディオ再生装置と高速データ伝送装置の開発により、エンターテイメントとコミュニケーションの両方において、高品質の音質の需要が高まっている。 より良い音質を求めるこの探求において、録音側で発生する歪みや干渉、あるいは不完全な伝送パイプラインによって生じる問題が発生する。 この問題に対処するため、音声復元手法は、劣化した入力データからクリーンな音声信号を復元することを目的としている。 本稿では,拡散モデルに基づく音声復元アルゴリズムについて述べる。 伝統的アプローチは、しばしば手作りの規則と統計的ヒューリスティックに基づいており、音声信号の理解を形作っている。 過去数十年間、ディープニューラルネットワーク(DNN)のモデリング機能を利用するデータ駆動手法への顕著なシフトがあった。 深層生成モデル、中でも拡散モデルが、複雑なデータ分布を学習するための強力な技術として登場した。 しかし、DNNベースの学習アプローチのみに依存すると、特にエンドツーエンドモデルを採用する場合、解釈可能性を減らすリスクが生じる。 それにもかかわらず、データ駆動アプローチは、保証が難しい分布的および統計的な仮定に依存する統計モデルベースのフレームワークと比較して、より柔軟である。 本稿では,拡散モデルが両世界のベストを結合し,音質の面で優れた可読性と優れた性能を持つオーディオ復元アルゴリズムを設計する機会を提供することを示すことを目的とする。

With the development of audio playback devices and fast data transmission, the demand for high sound quality is rising, for both entertainment and communications. In this quest for better sound quality, challenges emerge from distortions and interferences originating at the recording side or caused by an imperfect transmission pipeline. To address this problem, audio restoration methods aim to recover clean sound signals from the corrupted input data. We present here audio restoration algorithms based on diffusion models, with a focus on speech enhancement and music restoration tasks. Traditional approaches, often grounded in handcrafted rules and statistical heuristics, have shaped our understanding of audio signals. In the past decades, there has been a notable shift towards data-driven methods that exploit the modeling capabilities of deep neural networks (DNNs). Deep generative models, and among them diffusion models, have emerged as powerful techniques for learning complex data distributions. However, relying solely on DNN-based learning approaches carries the risk of reducing interpretability, particularly when employing end-to-end models. Nonetheless, data-driven approaches allow more flexibility in comparison to statistical model-based frameworks whose performance depends on distributional and statistical assumptions that can be difficult to guarantee. Here, we aim to show that diffusion models can combine the best of both worlds and offer the opportunity to design audio restoration algorithms with a good degree of interpretability and a remarkable performance in terms of sound quality.
翻訳日:2024-02-16 16:31:15 公開日:2024-02-15
# メタファーに基づく最適化ヒューリスティックスの大規模ベンチマーク

Large-scale Benchmarking of Metaphor-based Optimization Heuristics ( http://arxiv.org/abs/2402.09800v1 )

ライセンス: Link先を確認
Diederick Vermetten, Carola Doerr, Hao Wang, Anna V. Kononova, Thomas B\"ack(参考訳) 提案する反復最適化ヒューリスティックスの数は着実に増加しており、この成長に伴い、幅広いコミュニティで議論の的となっている。 多くの新しいアルゴリズムに対して特に批判されているのが、アルゴリズムによる潜在的な貢献を強調するのではなく、メソッドの提示に使われるメタファーにフォーカスしていることである。 一般的な比喩に基づくアルゴリズムに関するいくつかの研究はこれらの問題を浮き彫りにした。 残念ながら、この詳細なアプローチは、メタファーベースのアルゴリズム全体に対してスケーラブルではない。 このため、ベンチマークがこれらのアルゴリズムに光を当てる方法について検討する。 この目的のために,BBOB関数スイート上で294のアルゴリズム実装を実行する。 提案手法は, 予算の選択, 性能評価, 実験設計のその他の側面が, これらのアルゴリズムの比較にどう影響するかを考察する。 私たちの結果は、ベンチマークがアルゴリズム空間の理解を深める上で重要なステップである理由と、メタファの裏にある最先端の隠れた部分の潜在的な改善を完全に評価するためにまだ克服すべき課題である点を強調しています。

The number of proposed iterative optimization heuristics is growing steadily, and with this growth, there have been many points of discussion within the wider community. One particular criticism that is raised towards many new algorithms is their focus on metaphors used to present the method, rather than emphasizing their potential algorithmic contributions. Several studies into popular metaphor-based algorithms have highlighted these problems, even showcasing algorithms that are functionally equivalent to older existing methods. Unfortunately, this detailed approach is not scalable to the whole set of metaphor-based algorithms. Because of this, we investigate ways in which benchmarking can shed light on these algorithms. To this end, we run a set of 294 algorithm implementations on the BBOB function suite. We investigate how the choice of the budget, the performance measure, or other aspects of experimental design impact the comparison of these algorithms. Our results emphasize why benchmarking is a key step in expanding our understanding of the algorithm space, and what challenges still need to be overcome to fully gauge the potential improvements to the state-of-the-art hiding behind the metaphors.
翻訳日:2024-02-16 16:30:52 公開日:2024-02-15
# 非線形系の閉形式フィルタリング

Closed-form Filtering for Non-linear Systems ( http://arxiv.org/abs/2402.09796v1 )

ライセンス: Link先を確認
Th\'eophile Cantelobre, Carlo Ciliberto, Benjamin Guedj, Alessandro Rudi(参考訳) 連続ベイズフィルタは過去の観測から隠れマルコフモデルの現在の状態分布を推定することを目的としている。 この問題は、表の設定やガウス雑音を持つ線形力学系のような顕著なケースを除いて、ほとんどのアプリケーション領域で難解であることが知られている。 本研究では,密度近似と計算効率の点でいくつかの利点を提供するガウス型psdモデルに基づく新しいフィルタのクラスを提案する。 遷移と観測がガウスpsdモデルである場合,フィルタリングは閉じた形で効率的に行うことができることを示す。 遷移と観測をガウスPSDモデルで近似すると、提案した推定器は近似の品質に依存し、遷移確率の正則性に適応する推定誤差を持つ強い理論的保証を享受できることが示される。 特に,我々の提案するフィルタが,O(\epsilon^{-1})$と$O(\epsilon^{-3/2})$のメモリと計算の複雑さを持つTV$\epsilon$-errorを達成した場合,オフライン学習ステップを含む,それぞれ$O(\epsilon^{-2})$のパーティクルフィルタのようなサンプリング方法の複雑さを考慮に入れた。

Sequential Bayesian Filtering aims to estimate the current state distribution of a Hidden Markov Model, given the past observations. The problem is well-known to be intractable for most application domains, except in notable cases such as the tabular setting or for linear dynamical systems with gaussian noise. In this work, we propose a new class of filters based on Gaussian PSD Models, which offer several advantages in terms of density approximation and computational efficiency. We show that filtering can be efficiently performed in closed form when transitions and observations are Gaussian PSD Models. When the transition and observations are approximated by Gaussian PSD Models, we show that our proposed estimator enjoys strong theoretical guarantees, with estimation error that depends on the quality of the approximation and is adaptive to the regularity of the transition probabilities. In particular, we identify regimes in which our proposed filter attains a TV $\epsilon$-error with memory and computational complexity of $O(\epsilon^{-1})$ and $O(\epsilon^{-3/2})$ respectively, including the offline learning step, in contrast to the $O(\epsilon^{-2})$ complexity of sampling methods such as particle filtering.
翻訳日:2024-02-16 16:30:34 公開日:2024-02-15
# 準同型暗号と連合学習を利用した高度データファブリックアーキテクチャ

An advanced data fabric architecture leveraging homomorphic encryption and federated learning ( http://arxiv.org/abs/2402.09795v1 )

ライセンス: Link先を確認
Sakib Anwar Rieyan, Md. Raisul Kabir News, A.B.M. Muntasir Rahman, Sadia Afrin Khan, Sultan Tasneem Jawad Zaarif, Md. Golam Rabiul Alam, Mohammad Mehedi Hassan, Michele Ianni, Giancarlo Fortino(参考訳) データファブリックは、複雑なデータ問題を解決するために、データを集中的な場所に移動させることなく、データ管理の統一を実現する、自動化されたAI駆動のデータ融合アプローチである。 フェデレーション学習アーキテクチャでは、グローバルモデルは複数のローカルモデルの学習パラメータに基づいてトレーニングされ、マシンラーニングのためにデータを集中リポジトリに移動する必要がなくなる。 本稿では,分散データファブリックアーキテクチャにおけるフェデレーション学習と部分同型暗号を用いた医用画像解析のためのセキュアなアプローチを提案する。 この方法では、複数のパーティが生データを交換することなく、学習または融合した特徴を用いて機械学習モデルのトレーニングを行うことができる。 このアプローチはHIPAAやGDPRなどの法令に準拠し、データのプライバシとセキュリティを確保する。 本研究は下垂体腫瘍分類のケーススタディを通じて, 本手法の有効性を実証し, 高い精度を達成した。 しかし,本研究の主な焦点は,安全な医用画像解析のためのツールとして,連合学習と部分的準同型暗号の開発と評価である。 この結果は、これらのテクニックが他のプライバシに敏感なドメインに適用される可能性を強調し、セキュアでプライバシ保護の機械学習の研究に寄与する。

Data fabric is an automated and AI-driven data fusion approach to accomplish data management unification without moving data to a centralized location for solving complex data problems. In a Federated learning architecture, the global model is trained based on the learned parameters of several local models that eliminate the necessity of moving data to a centralized repository for machine learning. This paper introduces a secure approach for medical image analysis using federated learning and partially homomorphic encryption within a distributed data fabric architecture. With this method, multiple parties can collaborate in training a machine-learning model without exchanging raw data but using the learned or fused features. The approach complies with laws and regulations such as HIPAA and GDPR, ensuring the privacy and security of the data. The study demonstrates the method's effectiveness through a case study on pituitary tumor classification, achieving a significant level of accuracy. However, the primary focus of the study is on the development and evaluation of federated learning and partially homomorphic encryption as tools for secure medical image analysis. The results highlight the potential of these techniques to be applied to other privacy-sensitive domains and contribute to the growing body of research on secure and privacy-preserving machine learning.
翻訳日:2024-02-16 16:30:09 公開日:2024-02-15
# QEDFTにおける電子-光子交換相関近似

Electron-Photon Exchange-Correlation Approximation for QEDFT ( http://arxiv.org/abs/2402.09794v1 )

ライセンス: Link先を確認
I-Te Lu, Michael Ruggenthaler, Nicolas Tancogne-Dejean, Simone Latini, Markus Penz, Angel Rubio(参考訳) 量子電気力学密度汎関数理論(QEDFT)は、実材料のための光学キャビティにおける複雑な光-物質相互作用を探求するための有望な道を提供する。 従来の密度汎関数理論と同様に、QEDFTのコーン・シャムの定式化は一般に未知の交換相関関数の近似を必要とする。 通常の電子-電子交換相関ポテンシャルに加えて、電子-光子交換相関ポテンシャルの近似も必要である。 最近の電子-光子交換機能 [C。 afer et al., proc の略。 ナトル と。 Sci USA, 118, e2110464118 (2021), https://www.pnas.org/doi/abs/10.1073/pnas.2110464118] は非相対論的パウリ・フィエルツ・ハミルトニアンの運動方程式から導かれ、弱結合系と強結合系をまたいだ一次元系において堅牢な性能を示す。 しかし、電子密度を高次元で再現する性能は未解明のままである。 ここでは、このQEDFT関数近似を 1 次元から 3 次元の有限系、弱から強い光-マター結合にわたって検討する。 電子-光子交換近似は超強結合状態において優れた結果をもたらす。 しかし、高次元にわたる弱いカップリング状態においても精度を確保するため、電子-光子相関寄与の一部を考慮に入れた電子-光子交換関数に対する計算効率の良い再正規化係数を導入する。 これらの知見は,光子交換機能から現実的なキャビティ・マッターシステムへの適用性を高め,キャビティQED(量子電磁力学)材料工学の分野を育成した。

Quantum-electrodynamical density-functional theory (QEDFT) provides a promising avenue for exploring complex light-matter interactions in optical cavities for real materials. Similar to conventional density-functional theory, the Kohn-Sham formulation of QEDFT needs approximations for the generally unknown exchange-correlation functional. In addition to the usual electron-electron exchange-correlation potential, an approximation for the electron-photon exchange-correlation potential is needed. A recent electron-photon exchange functional [C. Sch\"afer et al., Proc. Natl. Acad. Sci. USA, 118, e2110464118 (2021), https://www.pnas.org/doi/abs/10.1073/pnas.2110464118], derived from the equation of motion of the non-relativistic Pauli-Fierz Hamiltonian, shows robust performance in one-dimensional systems across weak- and strong-coupling regimes. Yet, its performance in reproducing electron densities in higher dimensions remains unexplored. Here we consider this QEDFT functional approximation from one to three-dimensional finite systems and across weak to strong light-matter couplings. The electron-photon exchange approximation provides excellent results in the ultra-strong-coupling regime. However, to ensure accuracy also in the weak-coupling regime across higher dimensions, we introduce a computationally efficient renormalization factor for the electron-photon exchange functional, which accounts for part of the electron-photon correlation contribution. These findings extend the applicability of photon-exchange-based functionals to realistic cavity-matter systems, fostering the field of cavity QED (quantum electrodynamics) materials engineering.
翻訳日:2024-02-16 16:29:46 公開日:2024-02-15
# ディープニューラルネットワークにおける非Ideal Program-Time of Charge Trap Flash (CTF) のシステムレベル影響

System-level Impact of Non-Ideal Program-Time of Charge Trap Flash (CTF) on Deep Neural Network ( http://arxiv.org/abs/2402.09792v1 )

ライセンス: Link先を確認
S. Shrivastava, A. Biswas, S. Chakrabarty, G. Dash, V. Saraswat, and U. Ganguly(参考訳) Resistive Processing Unit(RPU)アーキテクチャを用いたディープニューラルネットワーク(DNN)の学習は、専用のニューロモルフィックハードウェアとインメモリコンピューティングのための重み更新の確率計算を使用するため、エネルギー効率が高い。 チャージトラップフラッシュ(CTF)デバイスは、DNNでRPUベースの重み更新を実装することができる。 しかし、CTFをベースとしたRPUの重み更新(V_T)は、CTFの非理想的プログラム時間の影響を受けている。 非理想的プログラム時間は ctf の2つの要因によって影響を受ける。 第一に、入力パルス数(n)またはパルス幅(pw)の影響、第二に、重み更新の確率的計算に用いられる連続更新パルス(t_gap)間のギャップである。 したがって、ニューラルネットワークのトレーニングシミュレーションには、この非理想的プログラム時間の影響を研究する必要がある。 本研究では,まず, ctfの非理想的プログラム時間とネットワークの確率的分散による総誤差を低減するパルストレイン設計補償手法を提案する。 次に、MNISTおよびFashion-MNISTデータセット上のCTFの非理想的プログラム時間を用いてRPUベースのDNNをシミュレートする。 より大きなN(~1000)では、学習性能が理想的な(ソフトウェアレベルの)トレーニングレベルに近づくため、RPUベースの重み更新を実装するのに使用されるt_gapの選択にはあまり影響しない。 しかし、低N(<500)では、学習性能はパルスのT_gapに依存する。 最後に,学習性能向上の要因を明らかにするため,アブレーション研究を行った。 重み付け更新における低騒音レベルがDNNの学習性能向上の最も重要な要因であると結論付けている。 そこで本研究では,非理想的プログラム時間による誤差を補正し,CTFベースのRPUのパルス長(N)およびパルスギャップ(t_gap)仕様を標準化し,システムレベルのオンチップトレーニングを行う。

Learning of deep neural networks (DNN) using Resistive Processing Unit (RPU) architecture is energy-efficient as it utilizes dedicated neuromorphic hardware and stochastic computation of weight updates for in-memory computing. Charge Trap Flash (CTF) devices can implement RPU-based weight updates in DNNs. However, prior work has shown that the weight updates (V_T) in CTF-based RPU are impacted by the non-ideal program time of CTF. The non-ideal program time is affected by two factors of CTF. Firstly, the effects of the number of input pulses (N) or pulse width (pw), and secondly, the gap between successive update pulses (t_gap) used for the stochastic computation of weight updates. Therefore, the impact of this non-ideal program time must be studied for neural network training simulations. In this study, Firstly, we propose a pulse-train design compensation technique to reduce the total error caused by non-ideal program time of CTF and stochastic variance of a network. Secondly, we simulate RPU-based DNN with non-ideal program time of CTF on MNIST and Fashion-MNIST datasets. We find that for larger N (~1000), learning performance approaches the ideal (software-level) training level and, therefore, is not much impacted by the choice of t_gap used to implement RPU-based weight updates. However, for lower N (<500), learning performance depends on T_gap of the pulses. Finally, we also performed an ablation study to isolate the causal factor of the improved learning performance. We conclude that the lower noise level in the weight updates is the most likely significant factor to improve the learning performance of DNN. Thus, our study attempts to compensate for the error caused by non-ideal program time and standardize the pulse length (N) and pulse gap (t_gap) specifications for CTF-based RPUs for accurate system-level on-chip training.
翻訳日:2024-02-16 16:29:11 公開日:2024-02-15
# 生成型adversarial network discriminatorにおける病的バイアスの検討:stylegan3モデルを用いたケーススタディ

Examining Pathological Bias in a Generative Adversarial Network Discriminator: A Case Study on a StyleGAN3 Model ( http://arxiv.org/abs/2402.09786v1 )

ライセンス: Link先を確認
Alvin Grissom II, Ryan F. Lei, Jeova Farias Sales Rocha Neto, Bailey Lin, Ryan Trotter(参考訳) 生成的な敵ネットワークは、人間と実際の顔では区別できないフォトリアリスティックな顔を生成する。 一般的なGANネットワークであるStyleGAN3モデルの判別器は,画像品質と顔品質の両方でスコアを体系的に階層化し,性別,人種,その他のカテゴリーのイメージに不均等に影響を及ぼすことがわかった。 人種や性別を知覚する軸間の色や輝度に対する判別者のバイアスを調べ,社会心理学におけるステレオタイプ研究で一般的な軸について検討した。

Generative adversarial networks generate photorealistic faces that are often indistinguishable by humans from real faces. We find that the discriminator in the pre-trained StyleGAN3 model, a popular GAN network, systematically stratifies scores by both image- and face-level qualities and that this disproportionately affects images across gender, race, and other categories. We examine the discriminator's bias for color and luminance across axes perceived race and gender; we then examine axes common in research on stereotyping in social psychology.
翻訳日:2024-02-16 16:28:38 公開日:2024-02-15
# MC-DBN: モダリティ補完のためのディープリーフネットワークベースモデル

MC-DBN: A Deep Belief Network-Based Model for Modality Completion ( http://arxiv.org/abs/2402.09782v1 )

ライセンス: Link先を確認
Zihong Luo, Haochen Xue, Mingyu Jin, Chengzhi Liu, Zile Huang, Chong Zhang, Shuliang Zhao(参考訳) マルチモーダル人工知能(AI)の最近の進歩は、株式市場の予測と心拍モニタリングの分野に革命をもたらした。 多様なデータソースを使用することで、予測精度が大幅に向上する。 それでも、追加データは常に元のデータセットと一致しない場合がある。 補間法は通常、モーダルデータの欠落値を扱うために使われるが、スパース情報の文脈では制限がある。 この課題に対処するため,我々はMC-DBN(Modality Completion Deep Belief Network Based Model)を提案する。 このアプローチでは、完全データの暗黙的な特徴を利用して、それ自身と追加の不完全なデータの間のギャップを補償する。 拡張されたマルチモーダルデータは、実世界の動的性質と密接に一致し、モデルの有効性を高めることが保証される。 我々は,MC-DBNモデルの評価を,市場予測領域と心拍モニタリング領域の2つのデータセットで行う。 総合的な実験では、マルチモーダルデータに存在するセマンティックディビジョンをブリッジするモデルの能力を示し、その後性能を向上する。 ソースコードはhttps://github.com/logan-0623/dbn-generateで入手できる。

Recent advancements in multi-modal artificial intelligence (AI) have revolutionized the fields of stock market forecasting and heart rate monitoring. Utilizing diverse data sources can substantially improve prediction accuracy. Nonetheless, additional data may not always align with the original dataset. Interpolation methods are commonly utilized for handling missing values in modal data, though they may exhibit limitations in the context of sparse information. Addressing this challenge, we propose a Modality Completion Deep Belief Network-Based Model (MC-DBN). This approach utilizes implicit features of complete data to compensate for gaps between itself and additional incomplete data. It ensures that the enhanced multi-modal data closely aligns with the dynamic nature of the real world to enhance the effectiveness of the model. We conduct evaluations of the MC-DBN model in two datasets from the stock market forecasting and heart rate monitoring domains. Comprehensive experiments showcase the model's capacity to bridge the semantic divide present in multi-modal data, subsequently enhancing its performance. The source code is available at: https://github.com/logan-0623/DBN-generate
翻訳日:2024-02-16 16:28:27 公開日:2024-02-15
# 航空データのコンピュータビジョン解析に関する総合的考察

A Comprehensive Review on Computer Vision Analysis of Aerial Data ( http://arxiv.org/abs/2402.09781v1 )

ライセンス: Link先を確認
Vivek Tetarwal, Sandeep Kumar(参考訳) 航空機用プラットフォームや撮像センサーの分野で新しい技術が出現し、航空データ解析が人気を博し、陸上データよりも有利な技術が活用されている。 本稿では,航空データ分析分野におけるコンピュータビジョンタスクの包括的レビューを行う。 オブジェクト検出やトラッキングといった基本的な側面に対処する一方で、主な焦点は、変更検出、オブジェクトセグメンテーション、シーンレベルの分析といった重要なタスクである。 この論文は、様々なアーキテクチャとタスクにまたがる様々なハイパーパラメータの比較を提供する。 実質的なセクションは、ライブラリ、それらの分類、そしてそれらの異なるドメインの専門知識との関連に関する詳細な議論に捧げられている。 本論文は, 航空データセット, 建築上のニュアンス, および, 航空データ解析におけるすべてのタスクに関連する評価指標を包含する。 異なる領域にわたる航空データにおけるコンピュータビジョンタスクの応用について検討し、ケーススタディがさらなる洞察を与えている。 本論文は, 航空データ解析に固有の課題を徹底的に検討し, 実用的な解決策を提供する。 さらに、航空データ分析の分野における今後の研究方向の道を開くために、未解決の重要課題が特定される。

With the emergence of new technologies in the field of airborne platforms and imaging sensors, aerial data analysis is becoming very popular, capitalizing on its advantages over land data. This paper presents a comprehensive review of the computer vision tasks within the domain of aerial data analysis. While addressing fundamental aspects such as object detection and tracking, the primary focus is on pivotal tasks like change detection, object segmentation, and scene-level analysis. The paper provides the comparison of various hyper parameters employed across diverse architectures and tasks. A substantial section is dedicated to an in-depth discussion on libraries, their categorization, and their relevance to different domain expertise. The paper encompasses aerial datasets, the architectural nuances adopted, and the evaluation metrics associated with all the tasks in aerial data analysis. Applications of computer vision tasks in aerial data across different domains are explored, with case studies providing further insights. The paper thoroughly examines the challenges inherent in aerial data analysis, offering practical solutions. Additionally, unresolved issues of significance are identified, paving the way for future research directions in the field of aerial data analysis.
翻訳日:2024-02-16 16:28:12 公開日:2024-02-15
# TinyCL: 自律システムにおける継続的な学習のための効率的なハードウェアアーキテクチャ

TinyCL: An Efficient Hardware Architecture for Continual Learning on Autonomous Systems ( http://arxiv.org/abs/2402.09780v1 )

ライセンス: Link先を確認
Eugenio Ressa and Alberto Marchisio and Maurizio Martina and Guido Masera and Muhammad Shafique(参考訳) 継続的学習(CL)パラダイムは、Deep Neural Network(DNN)モデルのパラメータを継続的に進化させ、従来のタスクのパフォーマンスを低下させることなく、段階的に新しいタスクを実行することを学習する。 しかし、CLベースの自律システムにおけるDNNパラメータの更新は非常に資源不足である。 既存のDNNアクセラレータは、前方伝播の実行のみをサポートするため、直接CLに採用することはできない。 バックプロパゲーションとウェイトアップデートを実行する以前のアーキテクチャはわずかだが、CLのコントロールと管理が不足している。 そこで我々は,リソース制約された自律システム上でCLを実行するハードウェアアーキテクチャであるTinyCLを設計する。 前処理と後処理の両方を実行する処理ユニットと、メモリベースのCLワークロードを管理する制御ユニットで構成される。 メモリアクセスを最小限にするため、畳み込み層のスライドウインドウは蛇のように移動する。 さらに、複数の累積ユニットを実行時に再構成して異なる操作を実行することもできる。 我々の知る限り、提案したTinyCLは、自律システム上でCLを実行する最初のハードウェアアクセラレータである。 我々は65nmのCMOS技術ノードでTinyCLアーキテクチャを合成し、従来のASIC設計フローと組み合わせた。 CIFAR10データセット上で1.76秒でConv + ReLU + Denseモデルのトレーニングを1周する一方、Nvidia Tesla P100 GPUを使用した同じモデルのトレーニングエポックは103秒を要し、58倍のスピードアップを実現し、4.74mm2ダイで86mWを消費する。

The Continuous Learning (CL) paradigm consists of continuously evolving the parameters of the Deep Neural Network (DNN) model to progressively learn to perform new tasks without reducing the performance on previous tasks, i.e., avoiding the so-called catastrophic forgetting. However, the DNN parameter update in CL-based autonomous systems is extremely resource-hungry. The existing DNN accelerators cannot be directly employed in CL because they only support the execution of the forward propagation. Only a few prior architectures execute the backpropagation and weight update, but they lack the control and management for CL. Towards this, we design a hardware architecture, TinyCL, to perform CL on resource-constrained autonomous systems. It consists of a processing unit that executes both forward and backward propagation, and a control unit that manages memory-based CL workload. To minimize the memory accesses, the sliding window of the convolutional layer moves in a snake-like fashion. Moreover, the Multiply-and-Accumulate units can be reconfigured at runtime to execute different operations. As per our knowledge, our proposed TinyCL represents the first hardware accelerator that executes CL on autonomous systems. We synthesize the complete TinyCL architecture in a 65 nm CMOS technology node with the conventional ASIC design flow. It executes 1 epoch of training on a Conv + ReLU + Dense model on the CIFAR10 dataset in 1.76 s, while 1 training epoch of the same model using an Nvidia Tesla P100 GPU takes 103 s, thus achieving a 58 x speedup, consuming 86 mW in a 4.74 mm2 die.
翻訳日:2024-02-16 16:27:55 公開日:2024-02-15
# nuteprune: 大規模言語モデルのための多数の教師による効率的なプログレッシブプラニング

NutePrune: Efficient Progressive Pruning with Numerous Teachers for Large Language Models ( http://arxiv.org/abs/2402.09773v1 )

ライセンス: Link先を確認
Shengrui Li, Xueting Han, Jing Bai(参考訳) 大規模言語モデル(llm)のかなりのサイズは、特にリソース制約のあるハードウェアにおいて、注目すべきデプロイメント上の課題を示している。 構造化プルーニングは、LLMを圧縮し、ストレージコストを削減し、より効率的な利用のために推論速度を向上させる効果的な手段を提供する。 本研究では,データ効率と資源効率のよい構造プランニング手法について検討し,より小さく,かつ強力なモデルを得る。 知識蒸留は刈り取りに適しており、無傷モデルは刈り取り生徒の優れた教師として機能する。 しかし、メモリ制約のため、LLMの文脈では困難になる。 そこで本稿では, 効率的なプログレッシブなNumerous-Teacher pruning法(NutePrune)を提案する。 NutePruneは、1つの無傷モデルのみを読み込んで、さまざまなマスクとLoRAモジュールに統合することで、過剰なメモリコストを軽減し、教師と学生の役割をシームレスに切り替えることを可能にする。 このアプローチにより、様々な能力を持つ教師を活用でき、段階的にプルーニングモデルを指導し、全体的な性能を向上させることができる。 さまざまなタスクにわたる大規模な実験は、NutePruneの有効性を示している。 LLaMA-7Bゼロショット実験では、NutePruneはオリジナルのモデルの性能の97.17%を20%、95.07%を25%で維持している。

The considerable size of Large Language Models (LLMs) presents notable deployment challenges, particularly on resource-constrained hardware. Structured pruning, offers an effective means to compress LLMs, thereby reducing storage costs and enhancing inference speed for more efficient utilization. In this work, we study data-efficient and resource-efficient structure pruning methods to obtain smaller yet still powerful models. Knowledge Distillation is well-suited for pruning, as the intact model can serve as an excellent teacher for pruned students. However, it becomes challenging in the context of LLMs due to memory constraints. To address this, we propose an efficient progressive Numerous-teacher pruning method (NutePrune). NutePrune mitigates excessive memory costs by loading only one intact model and integrating it with various masks and LoRA modules, enabling it to seamlessly switch between teacher and student roles. This approach allows us to leverage numerous teachers with varying capacities to progressively guide the pruned model, enhancing overall performance. Extensive experiments across various tasks demonstrate the effectiveness of NutePrune. In LLaMA-7B zero-shot experiments, NutePrune retains 97.17% of the performance of the original model at 20% sparsity and 95.07% at 25% sparsity.
翻訳日:2024-02-16 16:27:28 公開日:2024-02-15
# シングルフォワードパスを用いた表現学習

Representation Learning Using a Single Forward Pass ( http://arxiv.org/abs/2402.09769v1 )

ライセンス: Link先を確認
Aditya Somasundaram, Pushkal Mishra, Ayon Borthakur(参考訳) 神経科学にヒントを得たSolo Pass Embedded Learning Algorithm (SPELA)を提案する。 SPELAは、エッジAIデバイスにおけるトレーニングおよび推論アプリケーションの主要な候補である。 同時に、spelaは知覚表現の学習と形成を研究する枠組みの必要性を最適に満たすことができる。 SPELAには、神経前駆体(埋め込みベクトルの形で)、体重輸送なし、重量の更新ロックなし、完全に局所的なヘビアン学習、アクティベーションの保存のないシングルフォワードパス、サンプル毎のシングルウェイト更新などの特徴がある。 従来のアプローチでは、SPELAはバックプロパゲーションを必要としない。 提案手法は,うるさいブール演算データセット上で非線形分類を行うことができることを示す。 さらに,MNIST,KMNIST,Fashion MNISTにまたがるSPELAを用いて高い性能を示す。 最後に、mnist、kmnist、および fashion mnist における spela の少数および1-epoch 学習能力を示す。

We propose a neuroscience-inspired Solo Pass Embedded Learning Algorithm (SPELA). SPELA is a prime candidate for training and inference applications in Edge AI devices. At the same time, SPELA can optimally cater to the need for a framework to study perceptual representation learning and formation. SPELA has distinctive features such as neural priors (in the form of embedded vectors), no weight transport, no update locking of weights, complete local Hebbian learning, single forward pass with no storage of activations, and single weight update per sample. Juxtaposed with traditional approaches, SPELA operates without the need for backpropagation. We show that our algorithm can perform nonlinear classification on a noisy boolean operation dataset. Additionally, we exhibit high performance using SPELA across MNIST, KMNIST, and Fashion MNIST. Lastly, we show the few-shot and 1-epoch learning capabilities of SPELA on MNIST, KMNIST, and Fashion MNIST, where it consistently outperforms backpropagation.
翻訳日:2024-02-16 16:27:04 公開日:2024-02-15
# 変数から安定性へ:RecSysベンチマークの実践を促進する

From Variability to Stability: Advancing RecSys Benchmarking Practices ( http://arxiv.org/abs/2402.09766v1 )

ライセンス: Link先を確認
Valeriy Shevchenko, Nikita Belousov, Alexey Vasilev, Vladimir Zholobov, Artyom Sosedka, Natalia Semenova, Anna Volodkevich, Andrey Savchenko, Alexey Zaytsev(参考訳) 急速に進化するRecommender Systems(RecSys)のドメインでは、任意の選択された限られたデータセットに対する評価に基づいて、新しいアルゴリズムはしばしば最先端のパフォーマンスを主張する。 しかし、アルゴリズムの性能にデータセット特性が大きな影響を与えるため、このアプローチはアルゴリズムの有効性を総じて反映できない可能性がある。 本稿では,RecSysアルゴリズムの公平かつ堅牢な比較を容易にするため,新しいベンチマーク手法を提案する。 本研究で紹介された2つのオープンデータセットを含む30ドルの多様なセットを利用し、9ドルのメトリクスにわたる協調フィルタリングアルゴリズムの評価を行うことで、データセット特性がアルゴリズム性能に与える影響を批判的に検討する。 さらに,複数のデータセットからの結果を統一したランキングに集約する可能性についても検討する。 厳密な実験分析により,本手法の信頼性をデータセットの変動性の下で検証し,品質と計算能力のバランスをとるベンチマーク戦略を提供する。 この手法は、RecSysアルゴリズムを評価する公平で効果的な手段を可能にし、将来の研究に有用なガイダンスを提供する。

In the rapidly evolving domain of Recommender Systems (RecSys), new algorithms frequently claim state-of-the-art performance based on evaluations over a limited set of arbitrarily selected datasets. However, this approach may fail to holistically reflect their effectiveness due to the significant impact of dataset characteristics on algorithm performance. Addressing this deficiency, this paper introduces a novel benchmarking methodology to facilitate a fair and robust comparison of RecSys algorithms, thereby advancing evaluation practices. By utilizing a diverse set of $30$ open datasets, including two introduced in this work, and evaluating $11$ collaborative filtering algorithms across $9$ metrics, we critically examine the influence of dataset characteristics on algorithm performance. We further investigate the feasibility of aggregating outcomes from multiple datasets into a unified ranking. Through rigorous experimental analysis, we validate the reliability of our methodology under the variability of datasets, offering a benchmarking strategy that balances quality and computational demands. This methodology enables a fair yet effective means of evaluating RecSys algorithms, providing valuable guidance for future research endeavors.
翻訳日:2024-02-16 16:26:47 公開日:2024-02-15
# 時間窓を用いた確率的車両経路問題に対する強化学習

Reinforcement Learning for Solving Stochastic Vehicle Routing Problem with Time Windows ( http://arxiv.org/abs/2402.09765v1 )

ライセンス: Link先を確認
Zangir Iklassov and Ikboljon Sobirov and Ruben Solozabal and Martin Takac(参考訳) 本稿では,商品配送における運送コストの削減に焦点をあてた,時間を考慮した確率的車両ルーティング問題 (SVRP) を最適化するための強化学習手法を提案する。 我々は,特定の顧客時間窓とともに,旅行コストや需要の不確実性を考慮した新しいsvrp定式化手法を開発した。 ルーティングコストを最小限に抑えるために強化学習によって訓練された注意に基づくニューラルネットワークを用いる。 我々のアプローチは、伝統的にヒューリスティックな手法に依存しているSVRP研究のギャップに機械学習を活用して対処する。 このモデルはAnt-Colony Optimizationアルゴリズムより優れており、旅行コストは1.73%削減されている。 外部情報を独自に統合し、多様な環境で堅牢性を実証し、将来のSVRP研究や産業応用の貴重なベンチマークとなる。

This paper introduces a reinforcement learning approach to optimize the Stochastic Vehicle Routing Problem with Time Windows (SVRP), focusing on reducing travel costs in goods delivery. We develop a novel SVRP formulation that accounts for uncertain travel costs and demands, alongside specific customer time windows. An attention-based neural network trained through reinforcement learning is employed to minimize routing costs. Our approach addresses a gap in SVRP research, which traditionally relies on heuristic methods, by leveraging machine learning. The model outperforms the Ant-Colony Optimization algorithm, achieving a 1.73% reduction in travel costs. It uniquely integrates external information, demonstrating robustness in diverse environments, making it a valuable benchmark for future SVRP studies and industry application.
翻訳日:2024-02-16 16:26:26 公開日:2024-02-15
# 一様アクションコストの計算計画について

On Computing Plans with Uniform Action Costs ( http://arxiv.org/abs/2402.09877v1 )

ライセンス: Link先を確認
Alberto Pozanco, Daniel Borrajo, Manuela Veloso(参考訳) 多くの現実世界の計画アプリケーションでは、エージェントは可能な限り均一なコストを伴うアクションの計画を見つけることに興味があるかもしれない。 このような計画はエージェントに安定性と予測可能性を与えるが、これは人間が計画ツールによって提案された計画を実行するエージェントであるときに重要な特徴である。 本稿では,3つの均一性指標を自動計画に適用し,行動コストと行動コストの和を辞書的に最適化する計画ベースのコンパイルを導入する。 良く知られた計画ベンチマークと新しい計画ベンチマークの両方の実験結果は、修正されたタスクを効果的に解決し、一様計画を生成することができることを示している。

In many real-world planning applications, agents might be interested in finding plans whose actions have costs that are as uniform as possible. Such plans provide agents with a sense of stability and predictability, which are key features when humans are the agents executing plans suggested by planning tools. This paper adapts three uniformity metrics to automated planning, and introduce planning-based compilations that allow to lexicographically optimize sum of action costs and action costs uniformity. Experimental results both in well-known and novel planning benchmarks show that the reformulated tasks can be effectively solved in practice to generate uniform plans.
翻訳日:2024-02-16 16:20:07 公開日:2024-02-15
# lapdoc: ドキュメントのレイアウトアウェアプロンプト

LAPDoc: Layout-Aware Prompting for Documents ( http://arxiv.org/abs/2402.09841v1 )

ライセンス: Link先を確認
Marcel Lamott, Yves-Noel Weweler, Adrian Ulges, Faisal Shafait, Dirk Krechel, Darko Obradovic(参考訳) 大規模言語モデル(LLM)を大量のテキストデータで訓練する最近の進歩は、文書固有のタスクを含む多くの領域やタスクに強い一般化をもたらす。 文書のレイアウトとテキスト入力を融合させるように設計された文書理解に適したマルチモーダルトランスフォーマーアーキテクチャを訓練する傾向が指摘されている。 これは、追加のトレーニングデータを必要とする個別の微調整ステップを含む。 現在、llmに匹敵する一般化を持つ文書トランスフォーマーは存在せず、文書理解タスクにおいてどのモデルが望ましいかという疑問を投げかけている。 本稿では,レイアウトエンリッチメントを用いて文書特定タスクに純粋にテキストベースのllmを使用する可能性について検討する。 そこで本研究では,LLMプロンプトをレイアウト情報で拡張するためのドロップイン修正とルールベースの手法について検討する。 実験では,商用のChatGPTモデルとオープンソースLLM Solarへの影響について検討した。 提案手法を用いることで,各種標準文書ベンチマークの性能が向上することが実証された。 さらに,ノイズの多いOCRとレイアウトエラーの影響と,文書レイアウトを利用する場合のLLMの限界についても検討した。 以上の結果から,レイアウトエンリッチメントは文書理解のための純粋テキストベースのllmの性能を,平文テキストのみと比較して最大15%向上できることが示唆された。 結論として、本手法はテキストベースのLLMとマルチモーダル文書変換器の最良のモデル選択として検討されるべきである。

Recent advances in training large language models (LLMs) using massive amounts of solely textual data lead to strong generalization across many domains and tasks, including document-specific tasks. Opposed to that there is a trend to train multi-modal transformer architectures tailored for document understanding that are designed specifically to fuse textual inputs with the corresponding document layout. This involves a separate fine-tuning step for which additional training data is required. At present, no document transformers with comparable generalization to LLMs are available That raises the question which type of model is to be preferred for document understanding tasks. In this paper we investigate the possibility to use purely text-based LLMs for document-specific tasks by using layout enrichment. We explore drop-in modifications and rule-based methods to enrich purely textual LLM prompts with layout information. In our experiments we investigate the effects on the commercial ChatGPT model and the open-source LLM Solar. We demonstrate that using our approach both LLMs show improved performance on various standard document benchmarks. In addition, we study the impact of noisy OCR and layout errors, as well as the limitations of LLMs when it comes to utilizing document layout. Our results indicate that layout enrichment can improve the performance of purely text-based LLMs for document understanding by up to 15% compared to just using plain document text. In conclusion, this approach should be considered for the best model choice between text-based LLM or multi-modal document transformers.
翻訳日:2024-02-16 16:19:56 公開日:2024-02-15
# ゆるやかに変化する環境における高性能強化学習

Performative Reinforcement Learning in Gradually Shifting Environments ( http://arxiv.org/abs/2402.09838v1 )

ライセンス: Link先を確認
Ben Rank, Stelios Triantafyllou, Debmalya Mandal, Goran Radanovic(参考訳) 強化学習(RL)エージェントが実際にデプロイされると、環境に影響を与え、そのダイナミクスを変える可能性がある。 現在進行中の研究は、この現象を正式にモデル化し、これらのモデルにおける学習アルゴリズムの分析を試みる。 この目的のために,現在の環境がデプロイされたポリシと,その以前のダイナミクスに依存するフレームワークを提案する。 これはPerformative RL (PRL) [Mandal et al., 2023] の一般化である。 PRLとは異なり、我々のフレームワークは環境が徐々にデプロイされたポリシーに適応するシナリオをモデル化することができる。 我々は2つのアルゴリズムを実効予測文献から設定に適応させ,mixed delay repeat retraining (mdrr) と呼ばれる新しいアルゴリズムを提案する。 これらのアルゴリズムが収束して比較する条件として,リトレーニング数,近似保証数,デプロイ毎のサンプル数という3つの指標を挙げる。 従来のアプローチとは異なり、MDRRはトレーニングで複数のデプロイメントからのサンプルを組み合わせる。 これにより、MDRRは特に、環境の応答が実際に一般的な以前のダイナミクスに強く依存するシナリオに適している。 シミュレーションベースのテストベッドを用いてアルゴリズムを実験的に比較した結果,mdrrは従来の手法よりもかなり高速に収束することがわかった。

When Reinforcement Learning (RL) agents are deployed in practice, they might impact their environment and change its dynamics. Ongoing research attempts to formally model this phenomenon and to analyze learning algorithms in these models. To this end, we propose a framework where the current environment depends on the deployed policy as well as its previous dynamics. This is a generalization of Performative RL (PRL) [Mandal et al., 2023]. Unlike PRL, our framework allows to model scenarios where the environment gradually adjusts to a deployed policy. We adapt two algorithms from the performative prediction literature to our setting and propose a novel algorithm called Mixed Delayed Repeated Retraining (MDRR). We provide conditions under which these algorithms converge and compare them using three metrics: number of retrainings, approximation guarantee, and number of samples per deployment. Unlike previous approaches, MDRR combines samples from multiple deployments in its training. This makes MDRR particularly suitable for scenarios where the environment's response strongly depends on its previous dynamics, which are common in practice. We experimentally compare the algorithms using a simulation-based testbed and our results show that MDRR converges significantly faster than previous approaches.
翻訳日:2024-02-16 16:19:33 公開日:2024-02-15
# Beyond Imitation: 大規模言語モデルによるコンテキスト認識推論からヒューマンモビリティを生成する

Beyond Imitation: Generating Human Mobility from Context-aware Reasoning with Large Language Models ( http://arxiv.org/abs/2402.09836v1 )

ライセンス: Link先を確認
Chenyang Shao, Fengli Xu, Bingbing Fan, Jingtao Ding, Yuan Yuan, Meng Wang, Yong Li(参考訳) ヒトの移動行動は交通渋滞や疫病対策などの社会問題と密接に関連している。 しかし、モビリティデータの収集は、非常に高価であり、重大なプライバシー問題を引き起こし、高品質な生成モビリティモデルの必要性が高まっている。 これまでの取り組みは、トレーニングサンプルから行動分布を学習することに集中し、学習した分布をサンプリングして新しいモビリティデータを生成する。 モビリティ行動を促進するコヒーレントな意図を効果的に捉えることはできず、サンプルの効率とセマンティクスの認識が低下する。 LLMの創発的推論能力に着想を得て,モビリティ生成を常識的推論問題として再構成する急進的な視点シフトを提案する。 本稿では,新たなモビリティ生成・アズ・ア・リソン(MobiGeaR)フレームワークを設計し,LCMが再帰的にモビリティ動作を生成できるようにする。 具体的には,コンテキスト内学習によるllmとコンテキスト対応モビリティ動作を連携させる,コンテキスト対応チェーン・オブ・シグナリング手法を設計した。 加えて、MobiGeaR は LLM の推論と力学重力モデルの間の相乗効果を利用するために分割調整機構を採用している。 ステップバイステップのLSM推論を利用して、活動意図の時間的テンプレートを再帰的に生成し、力学重力モデルを用いて物理的場所にマッピングする。 2つの実世界のデータセットの実験では、MobiGeaRはすべてのメトリクスで最先端のパフォーマンスを実現しており、同時にトレーニングサンプルのサイズを大幅に削減している。 さらに、MobiGeaRは、意図的精度を62.23%向上させることにより、モビリティ生成のセマンティック・アウェアネスを著しく改善し、下流アプリケーションの性能向上に有効であることが証明された。 我々のアプローチの実装は論文で確認できる。

Human mobility behaviours are closely linked to various important societal problems such as traffic congestion, and epidemic control. However, collecting mobility data can be prohibitively expensive and involves serious privacy issues, posing a pressing need for high-quality generative mobility models. Previous efforts focus on learning the behaviour distribution from training samples, and generate new mobility data by sampling the learned distributions. They cannot effectively capture the coherent intentions that drive mobility behavior, leading to low sample efficiency and semantic-awareness. Inspired by the emergent reasoning ability in LLMs, we propose a radical perspective shift that reformulates mobility generation as a commonsense reasoning problem. In this paper, we design a novel Mobility Generation as Reasoning (MobiGeaR) framework that prompts LLM to recursively generate mobility behaviour. Specifically, we design a context-aware chain-of-thoughts prompting technique to align LLMs with context-aware mobility behaviour by few-shot in-context learning. Besides, MobiGeaR employ a divide-and-coordinate mechanism to exploit the synergistic effect between LLM reasoning and mechanistic gravity model. It leverages the step-by-step LLM reasoning to recursively generate a temporal template of activity intentions, which are then mapped to physical locations with a mechanistic gravity model. Experiments on two real-world datasets show MobiGeaR achieves state-of-the-art performance across all metrics, and substantially reduces the size of training samples at the same time. Besides, MobiGeaR also significantly improves the semantic-awareness of mobility generation by improving the intention accuracy by 62.23% and the generated mobility data is proven effective in boosting the performance of downstream applications. The implementation of our approach is available in the paper.
翻訳日:2024-02-16 16:19:15 公開日:2024-02-15
# All in One and One for All: クロスドメイングラフ事前トレーニングのためのシンプルで効果的な方法

All in One and One for All: A Simple yet Effective Method towards Cross-domain Graph Pretraining ( http://arxiv.org/abs/2402.09834v1 )

ライセンス: Link先を確認
Haihong Zhao, Aochuan Chen, Xiangguo Sun, Hong Cheng, and Jia Li(参考訳) 大規模言語モデル(LLM)はコンピュータビジョン(CV)と自然言語処理(NLP)の分野に革命をもたらした。 llmの最も注目すべき進歩の1つは、複数のドメインにまたがる巨大で多様なデータセットで、1つのモデルが訓練されていることだ。この方法論は、超一般化機能を持つllmに力を与え、さまざまなデータ分散の理解を促進する。これらの能力を活用することで、1つのllmは、さまざまなドメインにまたがる顕著な汎用性を示す。 しかしながら、このアイデアをグラフフィールドに適用することは依然として大きな課題であり、クロスドメイン事前トレーニングはしばしば負の転送をもたらす。 この問題は、トレーニングデータの質が外部知識源の組み入れを必要とする、少数の学習シナリオにおいて特に重要である。 この課題に対応して,多種多様なグラフデータセットにまたがる共通性を活用した,事前学習のためのグラフコーディネータ(gcope)と呼ばれる新しいアプローチを提案する。 提案手法は,事前学習段階で異なるグラフデータセットを融合し,目的とするタスクに有意義な知識を蒸留・伝達する統一フレームワークである。 複数のグラフデータセットにわたる大規模な実験は、我々のアプローチの優れた効果を示す。 複数のグラフデータセットの相乗的ポテンシャルを事前学習に活用することにより、我々の研究はグラフ基礎モデルの領域への先駆的な貢献として立証される。

Large Language Models (LLMs) have revolutionized the fields of computer vision (CV) and natural language processing (NLP). One of the most notable advancements of LLMs is that a single model is trained on vast and diverse datasets spanning multiple domains -- a paradigm we term `All in One'. This methodology empowers LLMs with super generalization capabilities, facilitating an encompassing comprehension of varied data distributions. Leveraging these capabilities, a single LLM demonstrates remarkable versatility across a variety of domains -- a paradigm we term `One for All'. However, applying this idea to the graph field remains a formidable challenge, with cross-domain pretraining often resulting in negative transfer. This issue is particularly important in few-shot learning scenarios, where the paucity of training data necessitates the incorporation of external knowledge sources. In response to this challenge, we propose a novel approach called Graph COordinators for PrEtraining (GCOPE), that harnesses the underlying commonalities across diverse graph datasets to enhance few-shot learning. Our novel methodology involves a unification framework that amalgamates disparate graph datasets during the pretraining phase to distill and transfer meaningful knowledge to target tasks. Extensive experiments across multiple graph datasets demonstrate the superior efficacy of our approach. By successfully leveraging the synergistic potential of multiple graph datasets for pretraining, our work stands as a pioneering contribution to the realm of graph foundational model.
翻訳日:2024-02-16 16:18:43 公開日:2024-02-15
# gansを用いた不正検出:合成トランザクションデータを用いたモデルトレーニング

Utilizing GANs for Fraud Detection: Model Training with Synthetic Transaction Data ( http://arxiv.org/abs/2402.09830v1 )

ライセンス: Link先を確認
Mengran Zhu, Yulu Gong, Yafei Xiang, Hanyi Yu, Shuning Huo(参考訳) 異常検出は、通常のデータ分布から逸脱するインスタンスを特定することを目的として、さまざまな研究領域において重要な課題である。 本稿では,GAN(Generative Adversarial Networks)の不正検出への応用について,従来の手法と比較して検討する。 ANN(Artificial Neural Network)の一種であるGANは、複雑なデータ分散をモデル化し、異常検出に有効なツールであることを示す。 論文はganとその派生モデルの原理を体系的に記述し、異なるデータセットにわたる不正検出への応用を強調した。 そして、敵対的な検証グラフのコレクションを構築することで、ボットや自動化システムによる不正行為を効果的に防止し、トランザクションのユーザが本物であることを保証します。 本研究の目的は,GAN(Generative Adversarial Network)アルゴリズムに基づく偽の顔認証コードと不正検出システムを設計,実装し,トランザクションプロセスの安全性を高めることであり,深層学習技術によるトランザクションセキュリティ向上におけるGANの可能性を示す。

Anomaly detection is a critical challenge across various research domains, aiming to identify instances that deviate from normal data distributions. This paper explores the application of Generative Adversarial Networks (GANs) in fraud detection, comparing their advantages with traditional methods. GANs, a type of Artificial Neural Network (ANN), have shown promise in modeling complex data distributions, making them effective tools for anomaly detection. The paper systematically describes the principles of GANs and their derivative models, emphasizing their application in fraud detection across different datasets. And by building a collection of adversarial verification graphs, we will effectively prevent fraud caused by bots or automated systems and ensure that the users in the transaction are real. The objective of the experiment is to design and implement a fake face verification code and fraud detection system based on Generative Adversarial network (GANs) algorithm to enhance the security of the transaction process.The study demonstrates the potential of GANs in enhancing transaction security through deep learning techniques.
翻訳日:2024-02-16 16:18:10 公開日:2024-02-15
# 高度な脅威検出のためのディープラーニングによる金融におけるサイバーセキュリティのレジリエンス向上

Enhancing Cybersecurity Resilience in Finance with Deep Learning for Advanced Threat Detection ( http://arxiv.org/abs/2402.09820v1 )

ライセンス: Link先を確認
Yulu Gong, Mengran Zhu, Shuning Huo, Yafei Xiang, Hanyi Yu(参考訳) インターネットの時代において、人々の生活はますます今日のネットワーク技術に依存している。 しかし、ネットワーク技術は二重刃の剣であり、人々に便宜をもたらすだけでなく、多くのセキュリティ上の課題も抱えている。 ネットワークのセキュリティを維持し、ユーザーの正当な利益を守ることは、ネットワーク構築の核心である。 脅威検出は、完全かつ効果的な防衛システムの重要な部分である。 ネットワーク情報セキュリティの分野では、ネットワーク攻撃とネットワーク保護の技術アップデートがスパイラルになっている。 未知の脅威を効果的に検出する方法は、ネットワーク保護の懸念のひとつだ。 現在、ネットワーク脅威検出は、通常、人工的なルールを作成したり、大規模なデータアプリケーションに適用できない時空間的特徴を抽出したりするルールや従来の機械学習手法に基づいており、未知の脅威の発生によって元のモデルの検出精度が低下する。 このことを念頭に置いて,金融業界におけるサイバーセキュリティレジエンシ向上のために,ディープラーニングを用いた高度な脅威検出を行う。 多くのネットワークセキュリティ研究者は、Nベースの侵入検知技術に焦点を移した。 検出技術は主に、通常のプログラムとネットワークの動作データを収集し、多次元の特徴を抽出し、このベースで決定機械学習モデルを訓練する統計機械学習手法を使用する(一般的には、ナイーブベイズ、決定木、サポートベクターマシン、ランダムフォレストなど)。 検出フェーズでは、トレランスを超える通常の値から逸脱するプログラムコードまたはネットワーク動作が悪意のあるコードまたはネットワーク攻撃行動とみなされる。

In the age of the Internet, people's lives are increasingly dependent on today's network technology. However, network technology is a double-edged sword, bringing convenience to people but also posing many security challenges. Maintaining network security and protecting the legitimate interests of users is at the heart of network construction. Threat detection is an important part of a complete and effective defense system. In the field of network information security, the technical update of network attack and network protection is spiraling. How to effectively detect unknown threats is one of the concerns of network protection. Currently, network threat detection is usually based on rules and traditional machine learning methods, which create artificial rules or extract common spatiotemporal features, which cannot be applied to large-scale data applications, and the emergence of unknown threats causes the detection accuracy of the original model to decline. With this in mind, this paper uses deep learning for advanced threat detection to improve cybersecurity resilienc e in the financial industry. Many network security researchers have shifted their focus to exceptio n-based intrusion detection techniques. The detection technology mainly uses statistical machine learning methods - collecting normal program and network behavior data, extracting multidimensional features, and training decision machine learning models on this basis (commonly used include naive Bayes, decision trees, support vector machines, random forests, etc.). In the detection phase, program code or network behavior that deviates from the normal value beyond the tolerance is considered malicious code or network attack behavior.
翻訳日:2024-02-16 16:17:50 公開日:2024-02-15
# モダリティギャップを意識する:クロスモーダルアライメントによるリモートセンシングビジョンランゲージモデルに向けて

Mind the Modality Gap: Towards a Remote Sensing Vision-Language Model via Cross-modal Alignment ( http://arxiv.org/abs/2402.09816v1 )

ライセンス: Link先を確認
Angelos Zavras, Dimitrios Michail, Beg\"um Demir, Ioannis Papoutsis(参考訳) ディープラーニング(dl)は、重要な、しかし不完全な性質からしばしば名付けられた基礎モデルの出現とともに、パラダイムシフトを行っている。 本研究では,多くの画像分類タスクにおいて高い精度を達成し,教師付きベースラインとの競合性も高いオープンボカブラリー基礎モデルであるclip(compactive language-image pre-training)に着目した。 それでも、リモートセンシング(RS)や医用画像など、ゼロショットCLIPのパフォーマンスが最適ではない領域は依然として存在する。 これらの領域は自然画像と根本的に異なる分布を示すだけでなく、一般的にはRGB以外の相補的なモダリティに依存して意味のある洞察を導き出す。 そこで本稿では,CLIPの視覚的・テキスト的モダリティと,異なるRS画像モダリティを整合させる手法を提案する。 この2段階の手順は,CLIPのゼロショット能力を拡張すべく,RSモダリティエンコーダのクロスモーダルアライメントを伴う分散シフトに対応するために,堅牢な微調整CLIPから構成される。 rs画像分類とクロスモーダル検索の課題に対して,最終的に本手法を実証する。 我々は、ロバストな微調整とクロスモーダルなアライメントの両方が、いくつかのRSベンチマークデータセットにおいて大きなパフォーマンス向上をもたらすことを実証的に示す。 特に、これらの拡張はテキスト記述に頼ることなく、タスク固有のパラメータを導入することなく、スクラッチからのトレーニングも、破滅的な忘れもせずに達成されます。

Deep Learning (DL) is undergoing a paradigm shift with the emergence of foundation models, aptly named by their crucial, yet incomplete nature. In this work, we focus on Contrastive Language-Image Pre-training (CLIP), an open-vocabulary foundation model, which achieves high accuracy across many image classification tasks and is often competitive with a fully supervised baseline without being explicitly trained. Nevertheless, there are still domains where zero-shot CLIP performance is far from optimal, such as Remote Sensing (RS) and medical imagery. These domains do not only exhibit fundamentally different distributions compared to natural images, but also commonly rely on complementary modalities, beyond RGB, to derive meaningful insights. To this end, we propose a methodology for the purpose of aligning distinct RS imagery modalities with the visual and textual modalities of CLIP. Our two-stage procedure, comprises of robust fine-tuning CLIP in order to deal with the distribution shift, accompanied by the cross-modal alignment of a RS modality encoder, in an effort to extend the zero-shot capabilities of CLIP. We ultimately demonstrate our method on the tasks of RS imagery classification and cross-modal retrieval. We empirically show that both robust fine-tuning and cross-modal alignment translate to significant performance gains, across several RS benchmark datasets. Notably, these enhancements are achieved without the reliance on textual descriptions, without introducing any task-specific parameters, without training from scratch and without catastrophic forgetting.
翻訳日:2024-02-16 16:17:25 公開日:2024-02-15
# DreamMatcher:Semantically-Consistent Text-to- Image Personalizationのための自己認識の出現マッチング

DreamMatcher: Appearance Matching Self-Attention for Semantically-Consistent Text-to-Image Personalization ( http://arxiv.org/abs/2402.09812v1 )

ライセンス: Link先を確認
Jisu Nam, Heesu Kim, DongJae Lee, Siyoon Jin, Seungryong Kim, Seunggyu Chang(参考訳) text-to-image (t2i)パーソナライズの目的は、拡散モデルをユーザが提供する参照概念にカスタマイズし、ターゲットプロンプトに合わせた概念の多様なイメージを生成することである。 従来、一意なテキスト埋め込みを用いた参照概念を表現する手法では、参照の外観を正確に模倣できないことが多い。 これを解決するために、あるソリューションは、キー-値置換と呼ばれるターゲットのデノナイジングプロセスに参照イメージを明示的に条件付けする。 しかし、事前訓練されたT2Iモデルの構造経路を乱すため、事前の作業は局所的な編集に制約される。 そこで本研究では,T2Iパーソナライゼーションをセマンティックマッチングとして再構成するDreamMatcherというプラグイン手法を提案する。 具体的には、dreammatcherは、さまざまな構造を生成するための事前訓練されたt2iモデルの汎用性を維持するために構造パスを変更せずに、ターゲット値をセマンティクスマッチングにアラインされた参照値に置き換える。 また、ターゲットプロンプトによって導入された無関係領域からパーソナライズされた概念を分離するための意味一貫性マスキング戦略を導入する。 既存のT2Iモデルと互換性があるが、DreamMatcherは複雑なシナリオで大幅に改善されている。 集中分析は我々のアプローチの有効性を示す。

The objective of text-to-image (T2I) personalization is to customize a diffusion model to a user-provided reference concept, generating diverse images of the concept aligned with the target prompts. Conventional methods representing the reference concepts using unique text embeddings often fail to accurately mimic the appearance of the reference. To address this, one solution may be explicitly conditioning the reference images into the target denoising process, known as key-value replacement. However, prior works are constrained to local editing since they disrupt the structure path of the pre-trained T2I model. To overcome this, we propose a novel plug-in method, called DreamMatcher, which reformulates T2I personalization as semantic matching. Specifically, DreamMatcher replaces the target values with reference values aligned by semantic matching, while leaving the structure path unchanged to preserve the versatile capability of pre-trained T2I models for generating diverse structures. We also introduce a semantic-consistent masking strategy to isolate the personalized concept from irrelevant regions introduced by the target prompts. Compatible with existing T2I models, DreamMatcher shows significant improvements in complex scenarios. Intensive analyses demonstrate the effectiveness of our approach.
翻訳日:2024-02-16 16:16:55 公開日:2024-02-15
# TEXTRON:データプログラミングによる多言語テキストの検出

TEXTRON: Weakly Supervised Multilingual Text Detection through Data Programming ( http://arxiv.org/abs/2402.09811v1 )

ライセンス: Link先を確認
Dhruv Kudale, Badri Vishal Kasuba, Venkatapathy Subramanian, Parag Chaudhuri, Ganesh Ramakrishnan(参考訳) 近年の深層学習(DL)技術は,画像に基づく多言語テキスト検出に大きく貢献している。 しかし、そのパフォーマンスはトレーニングデータの可用性と品質に大きく依存している。 いくつかのモダリティ、言語、フォント、レイアウトの情報からなるページレベルのドキュメントイメージには、数多くの種類がある。 これにより、特に低リソース言語や手書き言語において、テキスト検出はコンピュータビジョン(CV)の分野で難しい問題となる。 さらに、テキスト検出のための単語レベルのラベル付きデータの不足、特に多言語設定や、印刷テキストと手書きテキストの両方を含むインドのスクリプトが不足している。 従来、インドのスクリプトテキスト検出では、ラベル付きデータを多用したDLモデルをトレーニングする必要がありますが、私たちの知る限り、関連するデータセットは利用できません。 このようなデータの手動アノテーションには、多くの時間、労力、専門知識が必要です。 そこで本研究では,様々なテキスト検出手法を弱い教師ベース学習フレームワークに組み込む,データプログラミングに基づくアプローチであるtextronを提案する。 多言語テキスト検出に対するこのアプローチは,様々なCVベースの手法とDLアプローチのアンサンブルとして見ることができる。 TEXTRONは,大量の言語データに基づいて事前学習したDLモデルの予測と,他の言語でのテキスト検出を改善するCVベースの手法を利用することができる。 我々は,対応するラベル付きデータがないにも関わらず,TEXTRONがインドの言語で書かれた文書の検出性能を向上させることを実証した。 さらに, 広範囲な実験を通じて, 現状技術(SOTA)モデルに対するアプローチによる改善, 特に手書きのDevannagariテキストについて述べる。 コードとデータセットはhttps://github.com/IITB-LEAP-OCR/TEXTRONで公開されている。

Several recent deep learning (DL) based techniques perform considerably well on image-based multilingual text detection. However, their performance relies heavily on the availability and quality of training data. There are numerous types of page-level document images consisting of information in several modalities, languages, fonts, and layouts. This makes text detection a challenging problem in the field of computer vision (CV), especially for low-resource or handwritten languages. Furthermore, there is a scarcity of word-level labeled data for text detection, especially for multilingual settings and Indian scripts that incorporate both printed and handwritten text. Conventionally, Indian script text detection requires training a DL model on plenty of labeled data, but to the best of our knowledge, no relevant datasets are available. Manual annotation of such data requires a lot of time, effort, and expertise. In order to solve this problem, we propose TEXTRON, a Data Programming-based approach, where users can plug various text detection methods into a weak supervision-based learning framework. One can view this approach to multilingual text detection as an ensemble of different CV-based techniques and DL approaches. TEXTRON can leverage the predictions of DL models pre-trained on a significant amount of language data in conjunction with CV-based methods to improve text detection in other languages. We demonstrate that TEXTRON can improve the detection performance for documents written in Indian languages, despite the absence of corresponding labeled data. Further, through extensive experimentation, we show improvement brought about by our approach over the current State-of-the-art (SOTA) models, especially for handwritten Devanagari text. Code and dataset has been made available at https://github.com/IITB-LEAP-OCR/TEXTRON
翻訳日:2024-02-16 16:16:30 公開日:2024-02-15
# トークンの表層情報に基づく事前学習言語モデルの知識

Knowledge of Pretrained Language Models on Surface Information of Tokens ( http://arxiv.org/abs/2402.09808v1 )

ライセンス: Link先を確認
Tatsuya Hiraoka, Naoaki Okazaki(参考訳) 事前訓練された言語モデルはトークンの表面情報に関する知識を持っているか? 事前学習言語モデルにより得られた単語やサブワードの埋め込みに格納された表面情報を,トークン長,サブストリング,トークン構成の観点から検討した。 さらに,トークン表面に関する知識を生成できるモデルの性能評価を行った。 英語と日本語のコーパスを主に訓練した12の事前学習言語モデルに注目した。 実験の結果,事前学習された言語モデルにはトークン長とサブ文字列に関する知識があるが,トークン構成は持たないことがわかった。 さらに,得られた知識を効果的に活用するという観点から,デコーダ側にボトルネックが存在することを示唆する。

Do pretrained language models have knowledge regarding the surface information of tokens? We examined the surface information stored in word or subword embeddings acquired by pretrained language models from the perspectives of token length, substrings, and token constitution. Additionally, we evaluated the ability of models to generate knowledge regarding token surfaces. We focused on 12 pretrained language models that were mainly trained on English and Japanese corpora. Experimental results demonstrate that pretrained language models have knowledge regarding token length and substrings but not token constitution. Additionally, the results imply that there is a bottleneck on the decoder side in terms of effectively utilizing acquired knowledge.
翻訳日:2024-02-16 16:16:06 公開日:2024-02-15
# 非凸凸凸最小値問題の2つの信頼領域型アルゴリズム

Two trust region type algorithms for solving nonconvex-strongly concave minimax problems ( http://arxiv.org/abs/2402.09807v1 )

ライセンス: Link先を確認
Tongliang Yao and Zi Xu(参考訳) 本稿では, ミニマックス・トラスト領域法(MINIMAX-TR) アルゴリズムと, 契約・拡張を伴うミニマックス・トラスト領域法(MINIMAX-TRACE) アルゴリズムを提案する。 どちらのアルゴリズムも $(\epsilon, \sqrt{\epsilon})$-second order stationary point(SSP) を $\mathcal{O}(\epsilon^{-1.5})$ iterations 内で見つけることができる。

In this paper, we propose a Minimax Trust Region (MINIMAX-TR) algorithm and a Minimax Trust Region Algorithm with Contractions and Expansions(MINIMAX-TRACE) algorithm for solving nonconvex-strongly concave minimax problems. Both algorithms can find an $(\epsilon, \sqrt{\epsilon})$-second order stationary point(SSP) within $\mathcal{O}(\epsilon^{-1.5})$ iterations, which matches the best well known iteration complexity.
翻訳日:2024-02-16 16:15:55 公開日:2024-02-15
# 基準崩壊と損失分布制御

Criterion collapse and loss distribution control ( http://arxiv.org/abs/2402.09802v1 )

ライセンス: Link先を確認
Matthew J. Holland(参考訳) 本研究では,DRO と OCE リスク (CVaR, 傾倒ERM) から,最近の文献(Flooding, SoftAD) で探索された漸近的アルゴリズム(Flooding, SoftAD) の根底にある非単調な基準まで,多岐にわたる学習基準下での誤り確率最小化条件に着目し,ある指標の最適化が他の指標の最適性を示唆する「基準崩壊」の概念を考察する。 ベルヌーイ分布による損失の文脈における崩壊が、cvarとdroの既存の結果よりもはるかに大きいことを示し、その後、超越的損失を含む範囲を拡大し、傾斜したermのような単調な基準が崩壊を防げない条件を示す。

In this work, we consider the notion of "criterion collapse," in which optimization of one metric implies optimality in another, with a particular focus on conditions for collapse into error probability minimizers under a wide variety of learning criteria, ranging from DRO and OCE risks (CVaR, tilted ERM) to non-monotonic criteria underlying recent ascent-descent algorithms explored in the literature (Flooding, SoftAD). We show how collapse in the context of losses with a Bernoulli distribution goes far beyond existing results for CVaR and DRO, then expand our scope to include surrogate losses, showing conditions where monotonic criteria such as tilted ERM cannot avoid collapse, whereas non-monotonic alternatives can.
翻訳日:2024-02-16 16:15:41 公開日:2024-02-15
# EFUF:マルチモーダル大言語モデルにおける幻覚の軽減に有効なきめ細かい学習フレームワーク

EFUF: Efficient Fine-grained Unlearning Framework for Mitigating Hallucinations in Multimodal Large Language Models ( http://arxiv.org/abs/2402.09801v1 )

ライセンス: Link先を確認
Shangyu Xing, Fei Zhao, Zhen Wu, Tuo An, Weihao Chen, Chunhui Li, Jianbing Zhang and Xinyu Dai(参考訳) マルチモーダル大言語モデル(mllm)はここ数年で注目を集めているが、それでも対応する画像に存在しないオブジェクトを含む記述を生成する可能性がある。 幻覚をなくすために、既存の方法では幻覚のない対の応答を手動で注釈付けし、様々なアライメントアルゴリズムを用いて画像とテキストのアライメント機能を改善する。 しかし、微調整段階でかなりの計算リソースを要求するだけでなく、アライメントアルゴリズムが必要とするペアデータを構成するために、高価なヒューマンアノテーションを必要とする。 これらの問題に対処するため、我々はアンラーニングの概念を借用し、ペアデータを必要としない幻覚を排除できる効率的な微細なアンラーニングフレームワーク(EFUF)を提案する。 大規模な実験により, 計算オーバーヘッドの少ない生成品質を維持しながら, 幻覚を連続的に低減できることがわかった。 コードとデータセットは公開されます。

Multimodal large language models (MLLMs) have attracted increasing attention in the past few years, but they may still generate descriptions that include objects not present in the corresponding images, a phenomenon known as object hallucination. To eliminate hallucinations, existing methods manually annotate paired responses with and without hallucinations, and then employ various alignment algorithms to improve the alignment capability between images and text. However, they not only demand considerable computation resources during the finetuning stage but also require expensive human annotation to construct paired data needed by the alignment algorithms. To address these issues, we borrow the idea of unlearning and propose an efficient fine-grained unlearning framework (EFUF), which can eliminate hallucinations without the need for paired data. Extensive experiments show that our method consistently reduces hallucinations while preserving the generation quality with modest computational overhead. Our code and datasets will be publicly available.
翻訳日:2024-02-16 16:15:13 公開日:2024-02-15
# サイバー物理生産システム工学における製品・プロセス・資源の変動モデリング

Variability Modeling of Products, Processes, and Resources in Cyber-Physical Production Systems Engineering ( http://arxiv.org/abs/2402.09882v1 )

ライセンス: Link先を確認
Kristof Meixner, Kevin Feichtinger, Hafiyyan Sayyid Fadhlillah, Sandra Greiner, Hannes Marcher, Rick Rabiser and Stefan Biffl(参考訳) 自動自動車製造プラントのようなサイバー物理生産システム(CPPS)は、製品ポートフォリオから製品を製造するための一連の製造手順を設定可能である。 CPPSエンジニアリングでは、ドメインの専門家が暗黙の知識に基づいて実行可能な生産ステップシーケンスとリソースを手作業で決定することから始める。 このプロセスは再現が難しく、非常に非効率である。 本稿では、製品、プロセス、リソースの可変性モデルをドメイン固有の記述から導出するための拡張反復プロセスシーケンス探索(eipse)アプローチを提案する。 CPPSのための統合的な探索と構成プロセスを自動化するために,構成空間を自動的に削減し,リソースの制御コードなどのCPPSアーティファクトを生成するツールチェーンを提供する。 このアプローチを,コントロールコードアーティファクトの生成や,バックグラウンドの異なるエンジニアからのフィードバックを集めるための観察的ユーザ調査など,4つの実世界のユースケースで評価する。 その結果,eIPSEアプローチとそれに伴うプロトタイプの有効性を確認し,所望のCPPSを直接設定した。

Cyber-Physical Production Systems (CPPSs), such as automated car manufacturing plants, execute a configurable sequence of production steps to manufacture products from a product portfolio. In CPPS engineering, domain experts start with manually determining feasible production step sequences and resources based on implicit knowledge. This process is hard to reproduce and highly inefficient. In this paper, we present the Extended Iterative Process Sequence Exploration (eIPSE) approach to derive variability models for products, processes, and resources from a domain-specific description. To automate the integrated exploration and configuration process for a CPPS, we provide a toolchain which automatically reduces the configuration space and allows to generate CPPS artifacts, such as control code for resources. We evaluate the approach with four real-world use cases, including the generation of control code artifacts, and an observational user study to collect feedback from engineers with different backgrounds. The results confirm the usefulness of the eIPSE approach and accompanying prototype to straightforwardly configure a desired CPPS.
翻訳日:2024-02-16 16:06:29 公開日:2024-02-15
# 決定木によるカーネルクラスタリングの解説

Explaining Kernel Clustering via Decision Trees ( http://arxiv.org/abs/2402.09881v1 )

ライセンス: Link先を確認
Maximilian Fleissner, Leena Chennuru Vankadara, Debarghya Ghoshdastidar(参考訳) 説明可能で解釈可能な機械学習の人気が高まっているが、本質的に解釈可能なクラスタリング方法に関する作業は驚くほど限られている。 近年、古典的なk平均アルゴリズムの説明への関心が高まっており、軸整列決定木を用いてk平均クラスターを近似する効率的なアルゴリズムが導かれる。 しかしながら、k-meansの解釈可能な変種は、データの有用な分割を得るためにより柔軟なクラスタリング方法が必要となる場合、実際には適用性が限られている。 本研究では,k-meansの非線形拡張であるkernel k-meansによって引き起こされる分割を近似する決定木を構築するアルゴリズムを提案する。 我々はさらに,説明可能なk-means に関する先行研究をさらに深め,機能の適切な選択によって,解釈可能なモデルの近似保証を犠牲にすることなく,解釈可能性を保存することができることを示す。

Despite the growing popularity of explainable and interpretable machine learning, there is still surprisingly limited work on inherently interpretable clustering methods. Recently, there has been a surge of interest in explaining the classic k-means algorithm, leading to efficient algorithms that approximate k-means clusters using axis-aligned decision trees. However, interpretable variants of k-means have limited applicability in practice, where more flexible clustering methods are often needed to obtain useful partitions of the data. In this work, we investigate interpretable kernel clustering, and propose algorithms that construct decision trees to approximate the partitions induced by kernel k-means, a nonlinear extension of k-means. We further build on previous work on explainable k-means and demonstrate how a suitable choice of features allows preserving interpretability without sacrificing approximation guarantees on the interpretable model.
翻訳日:2024-02-16 16:06:10 公開日:2024-02-15
# 生成人工知能時代における大規模言語モデルベンチマークの不確かさ

Inadequacies of Large Language Model Benchmarks in the Era of Generative Artificial Intelligence ( http://arxiv.org/abs/2402.09880v1 )

ライセンス: Link先を確認
Timothy R. McIntosh, Teo Susnjak, Tong Liu, Paul Watters, and Malka N. Halgamuge(参考訳) 新たな能力を持つLarge Language Models (LLM) の人気が急速に高まり、様々な LLM の評価と比較が公の好奇心を喚起し、多くの研究者が LLM ベンチマークを提案するようになった。 これらのベンチマークの予備的な欠陥に気付き、機能性とセキュリティの柱の下で、人間、プロセス、技術のレンズを通して、新たな統一評価フレームワークを使用して、23の最先端llmベンチマークを批判的に評価する研究に着手しました。 本研究は, バイアス, 真理性, 適応性, 実装の不整合, 工学的複雑性の促進, 評価者多様性, 文化的・イデオロギー的規範の全体的評価など, 重大な限界を明らかにした。 我々の議論は、静的ベンチマークから動的行動プロファイリングへの進化を提唱し、LSMの複雑な行動や潜在的なリスクを正確に捉えることを含む、人工知能(AI)の進歩に照らして、標準化された方法論、規制の確実性、倫理的ガイドラインの緊急の必要性を強調した。 本研究は, LLM評価手法のパラダイムシフトの必要性を強調し, 普遍的に受け入れられるベンチマークの開発と, 社会へのAIシステム統合の強化に向けた共同作業の重要性を概説した。

The rapid rise in popularity of Large Language Models (LLMs) with emerging capabilities has spurred public curiosity to evaluate and compare different LLMs, leading many researchers to propose their LLM benchmarks. Noticing preliminary inadequacies in those benchmarks, we embarked on a study to critically assess 23 state-of-the-art LLM benchmarks, using our novel unified evaluation framework through the lenses of people, process, and technology, under the pillars of functionality and security. Our research uncovered significant limitations, including biases, difficulties in measuring genuine reasoning, adaptability, implementation inconsistencies, prompt engineering complexity, evaluator diversity, and the overlooking of cultural and ideological norms in one comprehensive assessment. Our discussions emphasized the urgent need for standardized methodologies, regulatory certainties, and ethical guidelines in light of Artificial Intelligence (AI) advancements, including advocating for an evolution from static benchmarks to dynamic behavioral profiling to accurately capture LLMs' complex behaviors and potential risks. Our study highlighted the necessity for a paradigm shift in LLM evaluation methodologies, underlining the importance of collaborative efforts for the development of universally accepted benchmarks and the enhancement of AI systems' integration into society.
翻訳日:2024-02-16 16:05:55 公開日:2024-02-15
# 弱値に基づく量子パラドックスと量子測定の現実的な解釈との関係

Association between quantum paradoxes based on weak values and a realistic interpretation of quantum measurements ( http://arxiv.org/abs/2402.09879v1 )

ライセンス: Link先を確認
Alice M. Aredes and Pablo L. Saldanha(参考訳) 弱い値の現実的な見方に基づく多くの量子パラドックスが過去数十年間で議論された。 スピン1/2粒子のスピン成分の測定は100\hbar$となり、光子を偏光から分離し、2つの粒子が同じ箱に入ることなく2つの箱に3つの粒子を持つ可能性など、驚くべき結論をもたらす。 ここでは、これらの(および他の)作品に存在する弱い値の現実的な見方が、測定値の根底にある現実を明らかにする量子測定の現実的(および非常に議論の的)見解と等価であることを示す。 弱値に基づく全ての量子パラドックスは、これらの量子測定と弱値の現実的な見解を否定すれば単に消滅する。 私たちの研究は、量子パラドックスの解釈に現れる強い仮定と対応する問題を実証することを目的としています。

Many quantum paradoxes based on a realistic view of weak values were discussed in the last decades. They lead to astonishing conclusions such as the measurement of a spin component of a spin-1/2 particle resulting in $100\hbar$, the separation of a photon from its polarization, and the possibility of having 3 particles in 2 boxes without any 2 particles being in the same box, among others. Here we show that the realistic view of the weak values present in these (and other) works is equivalent to a realistic (and highly controversial) view of quantum measurements, where a measurement reveals the underlying reality of the measured quantity. We discuss that all quantum paradoxes based on weak values simply disappear if we deny these realistic views of quantum measurements and weak values. Our work thus aims to demonstrate the strong assumptions and the corresponding problems present in the interpretation of these quantum paradoxes.
翻訳日:2024-02-16 16:05:31 公開日:2024-02-15
# camouflage:camouflageadversarial attackに対する言語モデルの堅牢性の評価と強化

Camouflage is all you need: Evaluating and Enhancing Language Model Robustness Against Camouflage Adversarial Attacks ( http://arxiv.org/abs/2402.09874v1 )

ライセンス: Link先を確認
\'Alvaro Huertas-Garc\'ia, Alejandro Mart\'in, Javier Huertas-Tato, David Camacho(参考訳) 敵対的攻撃は自然言語処理(NLP)において重大な課題である。 本研究は,トランスフォーマーモデルに対する脆弱性評価とレジリエンス向上の2つの段階において,この課題を体系的に検討するものである。 評価段階において,エンコーダデコーダ,エンコーダのみ,デコーダのみの3つのトランスフォーマ構成が,攻撃言語や誤った情報を含むデータセットをまたいだ複雑さをエスカレートする敵意攻撃に対する感受性を評価する。 エンコーダのみのモデルは、それぞれ攻撃的な言語検出と誤情報検出タスクで14%と21%のパフォーマンス低下を示す。 デコーダのみのモデルでは両方のタスクが16%減少し、エンコーダ-デコーダモデルでは各タスクで14%と26%の最大パフォーマンス低下を示す。 レジリエンス強化フェーズでは、カモフラージュ前と動的に変化したデータを統合して、敵対的なトレーニングを行う。 このアプローチは,エンコーダのみのモデルの性能低下を,攻撃的言語検出では平均5%,誤情報検出では2%に効果的に低減する。 デコーダのみのモデルは、時折オリジナルのパフォーマンスを超え、各タスクのパフォーマンス低下を7%と2%に制限する。 オリジナルの性能を超えないが、Encoder-decoderモデルは、それぞれ6%と2%に低下を減少させることができる。 その結果、パフォーマンスとロバスト性の間のトレードオフが示唆され、いくつかのモデルはロバスト性を獲得しながら同様のパフォーマンスを維持している。 本研究は,カモフラージュしたデータセットを生成するためのオープンソースツールに組み込まれている。 しかし、方法論の有効性は特定のカモフラージュ技術と遭遇したデータに依存し、継続的な探索の必要性を強調している。

Adversarial attacks represent a substantial challenge in Natural Language Processing (NLP). This study undertakes a systematic exploration of this challenge in two distinct phases: vulnerability evaluation and resilience enhancement of Transformer-based models under adversarial attacks. In the evaluation phase, we assess the susceptibility of three Transformer configurations, encoder-decoder, encoder-only, and decoder-only setups, to adversarial attacks of escalating complexity across datasets containing offensive language and misinformation. Encoder-only models manifest a 14% and 21% performance drop in offensive language detection and misinformation detection tasks, respectively. Decoder-only models register a 16% decrease in both tasks, while encoder-decoder models exhibit a maximum performance drop of 14% and 26% in the respective tasks. The resilience-enhancement phase employs adversarial training, integrating pre-camouflaged and dynamically altered data. This approach effectively reduces the performance drop in encoder-only models to an average of 5% in offensive language detection and 2% in misinformation detection tasks. Decoder-only models, occasionally exceeding original performance, limit the performance drop to 7% and 2% in the respective tasks. Although not surpassing the original performance, Encoder-decoder models can reduce the drop to an average of 6% and 2% respectively. Results suggest a trade-off between performance and robustness, with some models maintaining similar performance while gaining robustness. Our study and adversarial training techniques have been incorporated into an open-source tool for generating camouflaged datasets. However, methodology effectiveness depends on the specific camouflage technique and data encountered, emphasizing the need for continued exploration.
翻訳日:2024-02-16 16:05:14 公開日:2024-02-15
# social reward: オンラインクリエイティブコミュニティからの100万ユーザによるフィードバックによる生成aiの評価と強化

Social Reward: Evaluating and Enhancing Generative AI through Million-User Feedback from an Online Creative Community ( http://arxiv.org/abs/2402.09872v1 )

ライセンス: Link先を確認
Arman Isajanyan, Artur Shatveryan, David Kocharyan, Zhangyang Wang, Humphrey Shi(参考訳) コミュニティ認識の一形態としての社会的報酬は、オンラインプラットフォームのユーザーがコンテンツに関わり、貢献する動機の強い源泉となる。 テキスト条件付き画像合成の最近の進歩は、AIがユーザに対して、コミュニティの検証を求めるオリジナルのビジュアルアートワークを作成できるようにするコラボレーションの時代を背景としている。 しかしながら、これらのモデルを集団的コミュニティの嗜好の文脈で評価することは、異なる課題をもたらす。 既存の評価手法は主に、画質と即興アライメントによって導かれる限られたサイズのユーザー研究に集中している。 これは、生成された画像の創造的な編集に従事しているソーシャルネットワークユーザーからの暗黙のフィードバックを活用する革新的な報酬モデリングフレームワークである。 オンラインビジュアル作成および編集プラットフォームであるPicsartから、ユーザ生成したビジュアルアートに対して、暗黙の人間の好みを示す最初の100万ユーザ規模のデータセット、Picsart Image-Socialを作成。 本分析は,テキストから画像への出力に対するコミュニティの創造的好みのモデル化における現在の指標の欠点を明らかにし,これらの制約に対処するために明示的に調整された新しい予測モデルの導入を迫るものである。 厳密な定量的実験とユーザー研究により、我々の社会報酬モデルは、既存の指標よりも社会的人気に合致していることが示された。 さらに,テキスト対画像モデルの微調整にソーシャル・リワードを活用し,ソーシャル・リワードだけでなく,他の確立した指標により好まれる画像を生成する。 これらの調査結果は、aiが生成したアートワークのコミュニティ評価における社会的報酬の関連性と効果を強調し、ユーザーの創造的目標との緊密な連携を確立した。 コードはhttps://github.com/Picsart-AI-Research/Social-Rewardでアクセスすることができる。

Social reward as a form of community recognition provides a strong source of motivation for users of online platforms to engage and contribute with content. The recent progress of text-conditioned image synthesis has ushered in a collaborative era where AI empowers users to craft original visual artworks seeking community validation. Nevertheless, assessing these models in the context of collective community preference introduces distinct challenges. Existing evaluation methods predominantly center on limited size user studies guided by image quality and prompt alignment. This work pioneers a paradigm shift, unveiling Social Reward - an innovative reward modeling framework that leverages implicit feedback from social network users engaged in creative editing of generated images. We embark on an extensive journey of dataset curation and refinement, drawing from Picsart: an online visual creation and editing platform, yielding a first million-user-scale dataset of implicit human preferences for user-generated visual art named Picsart Image-Social. Our analysis exposes the shortcomings of current metrics in modeling community creative preference of text-to-image models' outputs, compelling us to introduce a novel predictive model explicitly tailored to address these limitations. Rigorous quantitative experiments and user study show that our Social Reward model aligns better with social popularity than existing metrics. Furthermore, we utilize Social Reward to fine-tune text-to-image models, yielding images that are more favored by not only Social Reward, but also other established metrics. These findings highlight the relevance and effectiveness of Social Reward in assessing community appreciation for AI-generated artworks, establishing a closer alignment with users' creative goals: creating popular visual art. Codes can be accessed at https://github.com/Picsart-AI-Research/Social-Reward
翻訳日:2024-02-16 16:04:24 公開日:2024-02-15
# MuChin: 音楽分野における言語モデル評価のための中国語の口語記述ベンチマーク

MuChin: A Chinese Colloquial Description Benchmark for Evaluating Language Models in the Field of Music ( http://arxiv.org/abs/2402.09871v1 )

ライセンス: Link先を確認
Zihao Wang, Shuyu Li, Tao Zhang, Qi Wang, Pengfei Yu, Jinyang Luo, Yan Liu, Ming Xi, Kejun Zhang(参考訳) 急速に発展するマルチモーダル大規模言語モデル(llm)は、音楽の理解とテキスト記述に関するパフォーマンスを統一的に評価するための新しいベンチマークを緊急に要求する。 しかし、音楽情報検索(MIR)アルゴリズムと人間の理解、専門家と一般人の相違、注釈の精度の低さにより、既存の音楽記述データセットはベンチマークとして機能することができない。 そこで本研究では,マルチモーダルllmの性能評価を目的とし,中国語言語で初のオープンソース音楽記述ベンチマークである muchin を提案する。 我々は,多人数多段階保証手法を用いたcaichong music annotation platform (caimap) を確立し,アノテーションの正確性と一般的な意味論との整合を確保するために,アマチュアとプロフェッショナルの両方を募集した。 この手法を利用して,多次元の高精度音楽アノテーション,caichong music dataset (caimd) を用いたデータセットを構築し,高音質の楽曲1000項目を注意深く選択し,muminのテストセットとした。 MuChin を用いて,音楽記述の観点からプロとアマチュアの差異を分析し,微調整 LLM における注釈付きデータの有効性を実証的に実証した。 最終的に、私たちは既存の音楽理解モデルを評価するためにMuChinを使用しました。 ベンチマークに関連するすべてのデータとスコアリングのコードがオープンソース化された。

The rapidly evolving multimodal Large Language Models (LLMs) urgently require new benchmarks to uniformly evaluate their performance on understanding and textually describing music. However, due to semantic gaps between Music Information Retrieval (MIR) algorithms and human understanding, discrepancies between professionals and the public, and low precision of annotations, existing music description datasets cannot serve as benchmarks. To this end, we present MuChin, the first open-source music description benchmark in Chinese colloquial language, designed to evaluate the performance of multimodal LLMs in understanding and describing music. We established the Caichong Music Annotation Platform (CaiMAP) that employs an innovative multi-person, multi-stage assurance method, and recruited both amateurs and professionals to ensure the precision of annotations and alignment with popular semantics. Utilizing this method, we built a dataset with multi-dimensional, high-precision music annotations, the Caichong Music Dataset (CaiMD), and carefully selected 1,000 high-quality entries to serve as the test set for MuChin. Based on MuChin, we analyzed the discrepancies between professionals and amateurs in terms of music description, and empirically demonstrated the effectiveness of annotated data for fine-tuning LLMs. Ultimately, we employed MuChin to evaluate existing music understanding models on their ability to provide colloquial descriptions of music. All data related to the benchmark and the code for scoring have been open-sourced.
翻訳日:2024-02-16 16:03:52 公開日:2024-02-15
# 埋め込みHMPにおける脳波アプリケーションの精度トレードオフ特性

Characterizing Accuracy Trade-offs of EEG Applications on Embedded HMPs ( http://arxiv.org/abs/2402.09867v1 )

ライセンス: Link先を確認
Zain Taufique, Muhammad Awais Bin Altaf, Antonio Miele, Pasi Liljeberg, Anil Kanduri(参考訳) 脳波(eeg)記録は、バッテリー駆動のウェアラブルデバイスを用いて脳活動や神経疾患を監視する。 これらのアプリケーションは、実現可能な結果を生成するのに長く連続的な処理を必要とする。 しかしながら、ウェアラブルデバイスは、実用ユースケースの小さなサイズのため、限られたエネルギーと計算資源で制約されている。 組み込みヘテロジニアスマルチコアプラットフォーム(HMP)は、EEGアプリケーションのための限られたエネルギー予算内で、より良いパフォーマンスを提供できる。 EEGアプリケーションパイプラインのエラーレジリエンスをさらに活用して,HMPの性能とエネルギ向上を最大化することができる。 しかし、組み込みHMPに対する近似の規律的なチューニングは、精度と性能のトレードオフ空間を徹底的に調べる必要がある。 本研究は,Odroid XU3 プラットフォームの実世界の組み込み HMP テストベッド上での懐疑的サイズール検出,睡眠段階分類,ストレス検出を含む3つの脳波アプリケーションのエラーレジリエンスを特徴付ける。 本稿では,様々な近似,出力,性能レベルでの脳波アプリケーションのパワー・パフォーマンス・精度トレードオフの組合せ評価を行い,組み込みプラットフォーム上での脳波アプリケーションの近似の規律的なチューニングについて考察する。

Electroencephalography (EEG) recordings are analyzed using battery-powered wearable devices to monitor brain activities and neurological disorders. These applications require long and continuous processing to generate feasible results. However, wearable devices are constrained with limited energy and computation resources, owing to their small sizes for practical use cases. Embedded heterogeneous multi-core platforms (HMPs) can provide better performance within limited energy budgets for EEG applications. Error resilience of the EEG application pipeline can be exploited further to maximize the performance and energy gains with HMPs. However, disciplined tuning of approximation on embedded HMPs requires a thorough exploration of the accuracy-performance-power trade-off space. In this work, we characterize the error resilience of three EEG applications, including Epileptic Seizure Detection, Sleep Stage Classification, and Stress Detection on the real-world embedded HMP test-bed of the Odroid XU3 platform. We present a combinatorial evaluation of power-performance-accuracy trade-offs of EEG applications at different approximation, power, and performance levels to provide insights into the disciplined tuning of approximation in EEG applications on embedded platforms.
翻訳日:2024-02-16 16:03:25 公開日:2024-02-15
# Kalman Filters: オブジェクト追跡を改善するディープラーニングベースのフィルタ

Beyond Kalman Filters: Deep Learning-Based Filters for Improved Object Tracking ( http://arxiv.org/abs/2402.09865v1 )

ライセンス: Link先を確認
Momir Ad\v{z}emovi\'c, Predrag Tadi\'c, Andrija Petrovi\'c, Mladen Nikoli\'c(参考訳) 従来のトラッキングバイ検出システムは、通常、状態推定にカルマンフィルタ(kf)を用いる。 しかし、KFはドメイン固有の設計選択を必要としており、非線形動作パターンを扱うのに不適である。 これらの制限に対処するため,我々は2つの革新的なデータ駆動フィルタリング手法を提案する。 第1の方法はベイズフィルタと訓練可能な運動モデルを用いて物体の将来の位置を予測し,その予測と物体検出器からの観測を組み合わせることで境界ボックス予測精度を向上させる。 さらに、kfの特徴となるドメイン固有の設計選択をほとんど不要にする。 第2の方法はエンドツーエンドのトレーニング可能なフィルタで、検出エラーの修正を学習し、ドメインの専門知識の必要性を更に最小化する。 さらに,提案手法と組み合わせた再帰的ニューラルネットワーク,ニューラル常微分方程式,条件付きニューラルプロセスに基づく動作モデルアーキテクチャについても紹介する。 複数のデータセットにわたる広範な評価結果から,提案するフィルタは,従来のkfよりも,特に非線形動作パターンにおいて,従来のkfよりも優れています。 また, フィルタの雑音頑健性解析を行い, 肯定的な結果を得た。 さらに,観測を軌道に関連付ける新たなコスト関数を提案する。 提案したフィルタとの新たな関連性を考慮したトラッカーは,モーションリッチなDanceTrackとSportsMOTデータセットの複数の測定値に従って,従来のSORT法および他のモーションベーストラッカーよりも優れている。

Traditional tracking-by-detection systems typically employ Kalman filters (KF) for state estimation. However, the KF requires domain-specific design choices and it is ill-suited to handling non-linear motion patterns. To address these limitations, we propose two innovative data-driven filtering methods. Our first method employs a Bayesian filter with a trainable motion model to predict an object's future location and combines its predictions with observations gained from an object detector to enhance bounding box prediction accuracy. Moreover, it dispenses with most domain-specific design choices characteristic of the KF. The second method, an end-to-end trainable filter, goes a step further by learning to correct detector errors, further minimizing the need for domain expertise. Additionally, we introduce a range of motion model architectures based on Recurrent Neural Networks, Neural Ordinary Differential Equations, and Conditional Neural Processes, that are combined with the proposed filtering methods. Our extensive evaluation across multiple datasets demonstrates that our proposed filters outperform the traditional KF in object tracking, especially in the case of non-linear motion patterns -- the use case our filters are best suited to. We also conduct noise robustness analysis of our filters with convincing positive results. We further propose a new cost function for associating observations with tracks. Our tracker, which incorporates this new association cost with our proposed filters, outperforms the conventional SORT method and other motion-based trackers in multi-object tracking according to multiple metrics on motion-rich DanceTrack and SportsMOT datasets.
翻訳日:2024-02-16 16:03:06 公開日:2024-02-15
# 高次演算子のためのGP-GOMEAの効率向上

Improving the efficiency of GP-GOMEA for higher-arity operators ( http://arxiv.org/abs/2402.09854v1 )

ライセンス: Link先を確認
Thalea Schlender, Mafalda Malafaia, Tanja Alderliesten, Peter A.N. Bosman(参考訳) 機械学習モデルを社会のセンシティブなドメインにデプロイするには、これらのモデルを説明する必要があります。 遺伝的プログラミング(GP)は、本質的に解釈可能な表現を進化させる方法を提供する。 GP-GOMEA (GP-GOMEA) はGPの1形態であり、サイズが制限されていないが正確な表現の進化に特に有効である。 この強度にもかかわらず、GP-GOMEAの制限はテンプレートベースである。 これは、オペレータのアーティが増大するにつれて、テンプレートの大部分が使われなくなる傾向があるため、使用可能なオペレータのアーティに関するスケーラビリティに悪影響を及ぼす。 本稿ではGP-GOMEAの2つの拡張を提案する。 i) サブツリーの意味的コンテキストを考慮した追加の変動ステップを実行するセマンティックサブツリー継承 (ii)標準GP-GOMEAのテンプレートの一部が未使用であることを明示的に考慮した欲求子選択。 GP-GOMEAの連続的および不連続な回帰問題に対する探索強化について,木深さや演算子集合の異なるバージョンを比較した。 実験結果から,提案手法がGP-GOMEAの性能に概ね肯定的な影響を与えることが明らかとなった。

Deploying machine learning models into sensitive domains in our society requires these models to be explainable. Genetic Programming (GP) can offer a way to evolve inherently interpretable expressions. GP-GOMEA is a form of GP that has been found particularly effective at evolving expressions that are accurate yet of limited size and, thus, promote interpretability. Despite this strength, a limitation of GP-GOMEA is template-based. This negatively affects its scalability regarding the arity of operators that can be used, since with increasing operator arity, an increasingly large part of the template tends to go unused. In this paper, we therefore propose two enhancements to GP-GOMEA: (i) semantic subtree inheritance, which performs additional variation steps that consider the semantic context of a subtree, and (ii) greedy child selection, which explicitly considers parts of the template that in standard GP-GOMEA remain unused. We compare different versions of GP-GOMEA regarding search enhancements on a set of continuous and discontinuous regression problems, with varying tree depths and operator sets. Experimental results show that both proposed search enhancements have a generally positive impact on the performance of GP-GOMEA, especially when the set of operators to choose from is large and contains higher-arity operators.
翻訳日:2024-02-16 16:02:40 公開日:2024-02-15
# ベースラインの勧告と近似ガウス過程のベンチマーク

Recommendations for Baselines and Benchmarking Approximate Gaussian Processes ( http://arxiv.org/abs/2402.09849v1 )

ライセンス: Link先を確認
Sebastian W. Ober, Artem Artemev, Marcel Wagenl\"ander, Rudolfs Grobins, Mark van der Wilk(参考訳) Gaussian Process (GP) はMLツールボックスの成熟した、広く使われているコンポーネントである。 彼らの望ましい特質の1つは、ユーザの介入なしにトレーニングできる自動ハイパーパラメータ選択である。 しかし、多くの現実的な設定では、通常、近似が必要であり、通常はチューニングを必要とする。 このチューニングの要件は評価を複雑にし,どのメソッドをどの状況で使用するべきかという明確な勧告が欠如している,と我々は主張する。 そこで本研究では,ユーザがメソッドに何を期待すべきかの仕様に基づいてgp近似を比較することを推奨する。 さらに,ユーザが選択する選択肢を残さないtitsias[2009]の変分法に関するトレーニング手順を開発し,これが我々の仕様に合致する強力なベースラインであることを示す。 提案によるベンチマークは、この分野の現状をより明確に把握し、今後の論文が解決すべき課題を明らかにするものであると結論付けている。

Gaussian processes (GPs) are a mature and widely-used component of the ML toolbox. One of their desirable qualities is automatic hyperparameter selection, which allows for training without user intervention. However, in many realistic settings, approximations are typically needed, which typically do require tuning. We argue that this requirement for tuning complicates evaluation, which has led to a lack of a clear recommendations on which method should be used in which situation. To address this, we make recommendations for comparing GP approximations based on a specification of what a user should expect from a method. In addition, we develop a training procedure for the variational method of Titsias [2009] that leaves no choices to the user, and show that this is a strong baseline that meets our specification. We conclude that benchmarking according to our suggestions gives a clearer view of the current state of the field, and uncovers problems that are still open that future papers should address.
翻訳日:2024-02-16 16:02:17 公開日:2024-02-15
# 連続多変量分布生成モデルのためのパラメータ化量子回路の表現性

Expressivity of parameterized quantum circuits for generative modeling of continuous multivariate distributions ( http://arxiv.org/abs/2402.09848v1 )

ライセンス: Link先を確認
Alice Barthe, Michele Grossi, Sofia Vallecorsa, Jordi Tura, and Vedran Dunjko(参考訳) パラメータ化量子回路は回帰、分類、生成タスクにおける機械学習モデルの基盤として広く使われている。 教師付き学習のために、それらの表現性は徹底的に研究され、いくつかの普遍性特性が証明されている。 しかしながら、量子生成モデリングの場合、特に連続変数上の分布をモデル化するタスクの場合、その状況は明確ではない。 本研究では,古典的にランダム変数をサンプリングし,パラメトリック化量子回路で符号化し,固定オブザーバブルの期待値を計測し,サンプルとして返却する,期待値サンプリングベースモデルに着目した。 このような変分量子アルゴリズムの普遍性を多変量分布の生成に対して証明する。 さらに、これらのモデルが表現できる分布の次元性に関する基礎的な上限を含む、これらのモデルの詳細な解析を行う。 さらに、誤差許容範囲内の出力分布の所望次元の普遍性を確保するために、必要な測定値とキュービット数とを結合する厳密なトレードオフ結果を示す。 最後に、データ符号化戦略は、フーリエ展開の類似であるいわゆる多項式カオス展開に関連していることを示す。 この結果は、生成的モデリングタスクにおける将来の量子回路の設計を導くのに役立つかもしれない。

Parameterized quantum circuits have been extensively used as the basis for machine learning models in regression, classification, and generative tasks. For supervised learning their expressivity has been thoroughly investigated and several universality properties have been proven. However, in the case of quantum generative modeling, the situation is less clear, especially when the task is to model distributions over continuous variables. In this work, we focus on expectation value sampling-based models; models where random variables are sampled classically, encoded with a parametrized quantum circuit, and the expectation value of fixed observables is measured and returned as a sample. We prove the universality of such variational quantum algorithms for the generation of multivariate distributions. Additionally, we provide a detailed analysis of these models, including fundamental upper bounds on the dimensionality of the distributions these models can represent. We further present a tight trade-off result connecting the needed number of measurements and qubit numbers in order to have universality for a desired dimension of output distribution within an error tolerance. Finally we also show that the data encoding strategy relates to the so-called polynomial chaos expansion, which is an analog of the Fourier expansion. Our results may help guide the design of future quantum circuits in generative modeling tasks.
翻訳日:2024-02-16 16:02:02 公開日:2024-02-15
# レーダベースQPEの深層学習手法

A Deep Learning Approach to Radar-based QPE ( http://arxiv.org/abs/2402.09846v1 )

ライセンス: Link先を確認
Ting-Shuo Yo, Shih-Hao Su, Jung-Lien Chu, Chiao-Wei Chang, and Hung-Chi Kuo(参考訳) 本研究では,マルチプルセンサ(QPESUMS)モザイクレーダデータセットを用いた量的降水量推定と分別に基づく量的降水量推定(QPE)のためのボリューム・ツー・ポイント・フレームワークを提案する。 台湾地域における格子状レーダー反射率の時系列データ量を用いて,気象観測所におけるQPEの統計モデルを構築するために,機械学習アルゴリズムを用いた。 このモデルは、入力データボリュームから空間的および時間的特徴を抽出し、それらの特徴を位置固有の降水と関連付ける。 z-r関係に基づくqpe法とは対照的に,機械学習アルゴリズムを用いて気象システムの進化と移動を自動的に検出し,それらのパターンを特定の地形属性に関連付ける。 具体的には,2013-2016年に台北の気象観測所45箇所の降水量データを用いて,この枠組みを評価した。 中央気象局が実施した運用QPE方式と比較して,一般的な場合において,ボリューム・ツー・ポイント・フレームワークは良好に動作し,重雨の観測に優れていた。 提案手法は,基準ベンチマークとして現在の結果を用いることで,異種データソースを統合し,極端な降水シナリオにおける予測を改善することができる。

In this study, we propose a volume-to-point framework for quantitative precipitation estimation (QPE) based on the Quantitative Precipitation Estimation and Segregation Using Multiple Sensor (QPESUMS) Mosaic Radar data set. With a data volume consisting of the time series of gridded radar reflectivities over the Taiwan area, we used machine learning algorithms to establish a statistical model for QPE in weather stations. The model extracts spatial and temporal features from the input data volume and then associates these features with the location-specific precipitations. In contrast to QPE methods based on the Z-R relation, we leverage the machine learning algorithms to automatically detect the evolution and movement of weather systems and associate these patterns to a location with specific topographic attributes. Specifically, we evaluated this framework with the hourly precipitation data of 45 weather stations in Taipei during 2013-2016. In comparison to the operational QPE scheme used by the Central Weather Bureau, the volume-to-point framework performed comparably well in general cases and excelled in detecting heavy-rainfall events. By using the current results as the reference benchmark, the proposed method can integrate the heterogeneous data sources and potentially improve the forecast in extreme precipitation scenarios.
翻訳日:2024-02-16 16:01:42 公開日:2024-02-15
# ジャック・オブ・オール・トレード(jack of all trades)、マスター・オブ・サマー(master of some)、多目的変圧器エージェント

Jack of All Trades, Master of Some, a Multi-Purpose Transformer Agent ( http://arxiv.org/abs/2402.09844v1 )

ライセンス: Link先を確認
Quentin Gallou\'edec and Edward Beeching and Cl\'ement Romac and Emmanuel Dellandr\'ea(参考訳) 複数のドメインにまたがってシームレスに動作する汎用モデルの探索は、機械学習研究の重要な目標である。 強化学習(Reinforcement Learning, RL)の一般的な方法論は、モデルを一元的フレームワーク内のひとつのタスクに制限する。 本稿では、連続的な意思決定タスクやマルチモーダルデータ型を扱うために最適化されたユニークな設計のトランスフォーマーベースモデルであるJack of All Trades(JAT)を提案する。 JATモデルは、コンピュータビジョン(CV)と自然言語処理(NLP)タスクの有望な結果とともに、非常に異なるRLベンチマークで強力なパフォーマンスを達成することで、その堅牢性と汎用性を実証している。 JATモデルは、より一般的なクロスドメインAIモデル設計に向けた重要なステップであり、特に、そのタイプが完全にオープンソース化される最初のモデルである(https://huggingface.co/jat-project/jatを参照)。

The search for a general model that can operate seamlessly across multiple domains remains a key goal in machine learning research. The prevailing methodology in Reinforcement Learning (RL) typically limits models to a single task within a unimodal framework, a limitation that contrasts with the broader vision of a versatile, multi-domain model. In this paper, we present Jack of All Trades (JAT), a transformer-based model with a unique design optimized for handling sequential decision-making tasks and multimodal data types. The JAT model demonstrates its robust capabilities and versatility by achieving strong performance on very different RL benchmarks, along with promising results on Computer Vision (CV) and Natural Language Processing (NLP) tasks, all using a single set of weights. The JAT model marks a significant step towards more general, cross-domain AI model design, and notably, it is the first model of its kind to be fully open-sourced (see https://huggingface.co/jat-project/jat), including a pioneering general-purpose dataset.
翻訳日:2024-02-16 16:01:19 公開日:2024-02-15
# シーケンス圧縮のためのマルチワードトークン化

Multi-Word Tokenization for Sequence Compression ( http://arxiv.org/abs/2402.09949v1 )

ライセンス: Link先を確認
Leonidas Gee and Leonardo Rigutini and Marco Ernandes and Andrea Zugarini(参考訳) 大規模言語モデルは様々なタスクをモデル化するのに非常に成功した。 しかし、これは計算コストが急上昇し、産業的な普及を妨げている。 このpa005 perでは、MWT: 単語境界を超えるマルチワードトークン表現を単一トークンとして表現することで、単語境界を超えるマルチワードトークンを提示する。 mwtsはよりコンパクトで効率的なトークン化を実現し、(1)シーケンス長と予算が固定された入力データのカバレッジ向上によるパフォーマンス向上、2性能低下によるシーケンス長の削減能力による推論の高速化と軽量化、という2つのメリットがある。 その結果,mwtはより短いシーケンス長でより頑健であり,初期シーケンス切断による高速化が可能となった。

Large Language Models have proven highly successful at modelling a variety of tasks. However, this comes at a steep computational cost that hinders wider industrial uptake. In this pa005 per, we present MWT: a Multi-Word Tokenizer that goes beyond word boundaries by representing frequent multi-word expressions as single tokens. MWTs produce a more compact and efficient tokenization that yields two benefits: (1) Increase in performance due to a greater coverage of input data given a fixed sequence length and budget; (2) Faster and lighter inference due to the ability to reduce the sequence length with negligible drops in performance. Our results show that MWT is more robust across shorter sequence lengths, thus allowing for major speedups via early sequence truncation.
翻訳日:2024-02-16 15:52:54 公開日:2024-02-15
# 複数回答を用いたオープンドメイン質問応答のデータセット

A Dataset of Open-Domain Question Answering with Multiple-Span Answers ( http://arxiv.org/abs/2402.09923v1 )

ライセンス: Link先を確認
Zhiyi Luo, Yingying Zhang, Shuyun Luo, Ying Zhao, Wentao Lyu(参考訳) マルチスパン回答抽出は、マルチスパン質問応答(msqa:multi-span question answering)としても知られ、複雑な質問に答えるためにテキストから複数の情報を抽出する必要があるため、現実世界のアプリケーションにとって重要である。 英語MSQA研究の活発な研究と急速な進歩にもかかわらず、中国語で公開されているMSQAベンチマークが欠如している。 MSQAデータセットの構築に対するこれまでの取り組みは、エンティティ中心のコンテキスト化を主に重視していたため、ファクトイドな質問の収集や、より詳細な記述的な回答を必要とする質問の見落としに偏っている。 このような制限を克服するために,我々は,広範囲のオープンドメイン課題を対象とする包括的中国語マルチスパン質問応答データセットであるcleanを提案する。 さらに,関連する文献の確立したモデルをクリーンのベースラインとして提供する。 実験結果と分析結果から,新たに提案したCLEANデータセットの特徴と課題が示された。 私たちのデータセット、cleanはzhiyiluo.site/misc/clean_v1.0_ sample.jsonで公開されます。

Multi-span answer extraction, also known as the task of multi-span question answering (MSQA), is critical for real-world applications, as it requires extracting multiple pieces of information from a text to answer complex questions. Despite the active studies and rapid progress in English MSQA research, there is a notable lack of publicly available MSQA benchmark in Chinese. Previous efforts for constructing MSQA datasets predominantly emphasized entity-centric contextualization, resulting in a bias towards collecting factoid questions and potentially overlooking questions requiring more detailed descriptive responses. To overcome these limitations, we present CLEAN, a comprehensive Chinese multi-span question answering dataset that involves a wide range of open-domain subjects with a substantial number of instances requiring descriptive answers. Additionally, we provide established models from relevant literature as baselines for CLEAN. Experimental results and analysis show the characteristics and challenge of the newly proposed CLEAN dataset for the community. Our dataset, CLEAN, will be publicly released at zhiyiluo.site/misc/clean_v1.0_ sample.json.
翻訳日:2024-02-16 15:52:40 公開日:2024-02-15
# 2ビット位相空間におけるシンプレクティック線形変換の解釈

Interpreting symplectic linear transformations in a two-qubit phase space ( http://arxiv.org/abs/2402.09922v1 )

ライセンス: Link先を確認
William K. Wootters(参考訳) 連続ウィグナー函数と奇数-素数次元における最も単純な離散ウィグナー函数に対しては、シンプレクティック線型変換に従ってウィグナー関数の値を置換することは、状態上のあるユニタリ変換を行うことと等価である。 つまり、このユニタリ変換を実行することは、単に位相空間の周りでウィグナー関数の値を動かす問題である。 この単純な対応は 2 の和である次元に対して成り立たない。 しかし、ここでは、この対応の一般化バージョンが、2量子ビット位相空間の場合に成立することを示す。 私たちが考える位相空間は四元体上の二次元ベクトル空間である。 この場合、位相空間の点のシンプレクティック線型置換とウィグナー函数のある種の再解釈はユニタリ変換と等価である。

For the continuous Wigner function and for the simplest discrete Wigner function in odd-prime-power dimensions, permuting the values of the Wigner function in accordance with a symplectic linear transformation is equivalent to performing a certain unitary transformation on the state. That is, performing this unitary transformation is simply a matter of moving Wigner-function values around in phase space. This simple correspondence does not hold for dimensions that are powers of two. Here we show, though, that a generalized version of this correspondence does hold for the case of a two-qubit phase space. The phase space we consider is the two-dimensional vector space over the four-element field. In this case, a symplectic linear permutation of the points of phase space, together with a certain reinterpretation of the Wigner function, is equivalent to a unitary transformation.
翻訳日:2024-02-16 15:52:19 公開日:2024-02-15
# モビリティ選択における認知バイアスの同定とモデル化

Identifying and modelling cognitive biases in mobility choices ( http://arxiv.org/abs/2402.09921v1 )

ライセンス: Link先を確認
Chloe Conrad and Carole Adam(参考訳) 本報告は,エージェントベースのモデリングと日常移動選択のシミュレーションに特化したm1インターンシップの結果を示す。 このシミュレーションは、モビリティ移行に関する真剣なゲームの基礎となるのに十分現実的であることを意図している。 このような現実主義のレベルを確保するために,我々は,現実の移動選択が合理的に行われているか,どのように偏っているかを測定する調査を行った。 ここで分析された結果は、さまざまなバイアスが意思決定に役割を果たすことを示している。 次に,GAMAエージェントに基づくシミュレーションの実装を提案する。

This report presents results from an M1 internship dedicated to agent-based modelling and simulation of daily mobility choices. This simulation is intended to be realistic enough to serve as a basis for a serious game about the mobility transition. In order to ensure this level of realism, we conducted a survey to measure if real mobility choices are made rationally, or how biased they are. Results analysed here show that various biases could play a role in decisions. We then propose an implementation in a GAMA agent-based simulation.
翻訳日:2024-02-16 15:52:04 公開日:2024-02-15
# 道路グラフ生成装置:GPSデータによる建設現場の道路マッピング

Road Graph Generator: Mapping roads at construction sites from GPS data ( http://arxiv.org/abs/2402.09919v1 )

ライセンス: Link先を確認
Katarzyna Micha{\l}owska, Helga Margrete Bodahl Holmestad, Signe Riemer-S{\o}rensen(参考訳) 地図構築現場におけるGPS軌道からの道路推定手法を提案する。 この課題は, 既設道路における典型的な車両交通とは大きく異なっており, 建設機械の非標準移動パターンが不安定であることから, 独特な課題である。 提案手法はまず,重要な決定点となる道路網の交差点を識別し,その後エッジと接続してグラフを生成し,計画やタスクアロケーションに使用することができる。 ノルウェーの実際の建設現場で道路を地図化することで,提案手法の有効性を実証する。

We present a method for road inference from GPS trajectories to map construction sites. This task introduces a unique challenge due to the erratic and non-standard movement patterns of construction machinery, which diverge significantly from typical vehicular traffic on established roads. Our method first identifies intersections in the road network that serve as critical decision points, and later connects them with edges, producing a graph, which subsequently can be used for planning and task-allocation. We demonstrate the effectiveness of our approach by mapping roads at a real-life construction site in Norway.
翻訳日:2024-02-16 15:51:55 公開日:2024-02-15
# BUSTER: "ビジネストランザクションエンティティ認識"データセット

BUSTER: a "BUSiness Transaction Entity Recognition" dataset ( http://arxiv.org/abs/2402.09916v1 )

ライセンス: Link先を確認
Andrea Zugarini and Andrew Zamai and Marco Ernandes and Leonardo Rigutini(参考訳) 自然言語処理はここ数年で大きなブレークスルーを遂げてきたが、そのような進歩を現実のビジネスケースに移すことは困難である。 その理由の1つは、人気のあるベンチマークと実際のデータの間の変位にある。 監督の欠如、バランスの取れないクラス、騒々しいデータ、長いドキュメントは、しばしば金融、法、健康といった垂直領域の実際の問題に影響を及ぼす。 産業指向の研究を支援するために,ビジネストランザクションエンティティ認識データセットであるbusterを提案する。 データセットは、金融取引に関する注釈付き文書3779から成り立っている。 汎用言語モデルとドメイン固有言語モデルの両方を利用したベースラインを確立する。 最高のパフォーマンスモデルは6196の文書を自動的に注釈付けするためにも使用され、BUSTERに追加の銀のコーパスとしてリリースします。

Albeit Natural Language Processing has seen major breakthroughs in the last few years, transferring such advances into real-world business cases can be challenging. One of the reasons resides in the displacement between popular benchmarks and actual data. Lack of supervision, unbalanced classes, noisy data and long documents often affect real problems in vertical domains such as finance, law and health. To support industry-oriented research, we present BUSTER, a BUSiness Transaction Entity Recognition dataset. The dataset consists of 3779 manually annotated documents on financial transactions. We establish several baselines exploiting both general-purpose and domain-specific language models. The best performing model is also used to automatically annotate 6196 documents, which we release as an additional silver corpus to BUSTER.
翻訳日:2024-02-16 15:51:45 公開日:2024-02-15
# オープンエンド質問応答のための疑似およびマルチソース知識グラフによる大規模言語モデルの拡張

Enhancing Large Language Models with Pseudo- and Multisource- Knowledge Graphs for Open-ended Question Answering ( http://arxiv.org/abs/2402.09911v1 )

ライセンス: Link先を確認
Jiaxiang Liu, Tong Zhou, Yubo Chen, Kang Liu, Jun Zhao(参考訳) LLM(Large Language Models)の幻覚を緩和し、それらを強化することが重要な課題である。 既存の手法ではモデル自己啓発技術を採用しているが、未知の事実の幻覚に効果的に対処できないものもある。 知識グラフ(KG)の強化アプローチは、異なるKGソース間の一般化と、オープンな回答質問の強化に同時に対処できない。 これらの制限に対処するため、Pseudo-Graph GenerationとAtomic Knowledge Verificationが提案されているフレームワークがある。 Pseudo-Graph 生成を利用して,KG を用いたオープンエンド質問応答環境における LLM の強化を実現する。 原子知識検証は、原子レベルの知識クエリと検証を利用して、異なるKGソース下での一般化性を実現する。 ベースラインと比較して、オープンエンド質問に対するROUGE-Lスコアの11.5の最小改善が得られる。 正確な質問に対しては、7.5の最小精度の改善を観察する。 さらに、このフレームワークは異なるKGソースにまたがる一般化性を示すという実証もある。 要約すると,本研究は疑似およびマルチソースkgを組み込むことにより,特にオープンエンド質問の文脈において,llmの強化の道を開くものである。

Mitigating the hallucinations of Large Language Models (LLMs) and enhancing them is a crucial task. Although some existing methods employ model self-enhancement techniques, they fall short of effectively addressing unknown factual hallucinations. Using Knowledge Graph (KG) enhancement approaches fails to address the generalization across different KG sources and the enhancement of open-ended answer questions simultaneously. To tackle these limitations, there is a framework that combines Pseudo-Graph Generation and Atomic Knowledge Verification proposed. The enhancement of LLM using KG in an open-ended question-answering setting is implemented by leveraging the Pseudo-Graph Generation. Atomic Knowledge Verification utilizes atomic-level knowledge querying and verification to achieve generalizability under different KG sources. Compared to the baseline, this approach yields a minimum improvement of 11.5 in the ROUGE-L score for open-ended questions. For precise questions, we observe a minimum accuracy improvement of 7.5. Moreover, there is also demonstration that this framework exhibits generalizability across different KG sources. In summary, our results pave the way for enhancing LLMs by incorporating Pseudo- and Multisource-KGs, particularly in the context of open-ended questions.
翻訳日:2024-02-16 15:51:35 公開日:2024-02-15
# DE-COP:言語モデルのトレーニングデータにおける著作権付きコンテンツの検出

DE-COP: Detecting Copyrighted Content in Language Models Training Data ( http://arxiv.org/abs/2402.09910v1 )

ライセンス: Link先を確認
Andr\'e V. Duarte, Xuandong Zhao, Arlindo L. Oliveira and Lei Li(参考訳) トレーニングデータが一般に公開されていないことを考慮して、言語モデルのトレーニングプロセスで著作権付きコンテンツが使用されているかどうかをどうやって検出できるのか? 私たちは、言語モデルがそのトレーニングテキストから動詞の抜粋を識別する可能性が高いという前提で動機付けられています。 著作権のあるコンテンツの一部がトレーニングに含まれているかどうかを判定する手法であるDE-COPを提案する。 DE-COPの中核的なアプローチは、動詞のテキストとパラフレーズの両方を含む複数選択の質問でLLMを探索することである。 booktectionという,モデルのトレーニングカットオフに先立って165冊の書籍を抜粋したベンチマークを,そのパラフレーズとともに構築する。 実験の結果,DEC-COPはロジットが利用可能なモデルにおいて,検出性能(AUC)が9.6%向上した。 さらに、DE-COPは、事前に$\approx$ 4%の精度が得られた完全ブラックボックスモデルで疑似書籍を検出する平均精度を72%達成している。 私たちのコードとデータセットはhttps://github.com/avduarte333/de-cop_methodで利用可能です。

How can we detect if copyrighted content was used in the training process of a language model, considering that the training data is typically undisclosed? We are motivated by the premise that a language model is likely to identify verbatim excerpts from its training text. We propose DE-COP, a method to determine whether a piece of copyrighted content was included in training. DE-COP's core approach is to probe an LLM with multiple-choice questions, whose options include both verbatim text and their paraphrases. We construct BookTection, a benchmark with excerpts from 165 books published prior and subsequent to a model's training cutoff, along with their paraphrases. Our experiments show that DE-COP surpasses the prior best method by 9.6% in detection performance (AUC) on models with logits available. Moreover, DE-COP also achieves an average accuracy of 72% for detecting suspect books on fully black-box models where prior methods give $\approx$ 4% accuracy. Our code and datasets are available at https://github.com/avduarte333/DE-COP_Method
翻訳日:2024-02-16 15:51:14 公開日:2024-02-15
# 生成的表現的インストラクションチューニング

Generative Representational Instruction Tuning ( http://arxiv.org/abs/2402.09906v1 )

ライセンス: Link先を確認
Niklas Muennighoff, Hongjin Su, Liang Wang, Nan Yang, Furu Wei, Tao Yu, Amanpreet Singh, Douwe Kiela(参考訳) すべてのテキストベースの言語問題は、生成または埋め込みに還元できる。 現在のモデルはどちらか一方でしかうまく機能しない。 生成的表現的命令チューニング(GRIT)を導入し、大きな言語モデルを用いて、生成的タスクと埋め込み的タスクの両方を扱うように訓練する。 他のオープンモデルと比較して、GritLM 7Bは、Massive Text Embedding Benchmark (MTEB) に新しい状態を設定し、様々な生成タスクにおいて、すべてのモデルをそのサイズで上回ります。 さらにスケールアップすることで、GritLM 8x7Bは、私たちが試したすべてのオープンな生成言語モデルよりも優れています。 特に、GRITは、生成データや埋め込みデータのみのトレーニングと一致しているため、パフォーマンス損失なしに両方の統合が可能である。 GRITによる統一は、検索と生成を分離する必要がなくなることで、長いドキュメントの検索・拡張生成(RAG)を60%以上高速化する。 モデルやコードなどはhttps://github.com/ContextualAI/gritlm.comで自由に入手できる。

All text-based language problems can be reduced to either generation or embedding. Current models only perform well at one or the other. We introduce generative representational instruction tuning (GRIT) whereby a large language model is trained to handle both generative and embedding tasks by distinguishing between them through instructions. Compared to other open models, our resulting GritLM 7B sets a new state of the art on the Massive Text Embedding Benchmark (MTEB) and outperforms all models up to its size on a range of generative tasks. By scaling up further, GritLM 8x7B outperforms all open generative language models that we tried while still being among the best embedding models. Notably, we find that GRIT matches training on only generative or embedding data, thus we can unify both at no performance loss. Among other benefits, the unification via GRIT speeds up Retrieval-Augmented Generation (RAG) by > 60% for long documents, by no longer requiring separate retrieval and generation models. Models, code, etc. are freely available at https://github.com/ContextualAI/gritlm.
翻訳日:2024-02-16 15:50:56 公開日:2024-02-15
# 量子インターネットにおけるフェデレーション学習に向けて

Towards Federated Learning on the Quantum Internet ( http://arxiv.org/abs/2402.09902v1 )

ライセンス: Link先を確認
Leo S\"unkel and Michael K\"olle and Tobias Rohe and Thomas Gabor(参考訳) 量子コンピューティングは、これまではモノリシックな量子システムに重点を置いてきたが、量子通信ネットワークや量子インターネットは、研究者や業界からも注目されている。 量子インターネットは、分散や盲目的の量子コンピューティングのような多くのアプリケーションを可能にするが、物理実装とアルゴリズムの両方に関して研究はまだ初期段階にあるため、適切な応用はオープンな研究課題である。 我々は量子インターネット、すなわち量子フェデレーション学習の潜在的な応用を評価する。 様々なシナリオ(例えば、ネットワーク制約)において、異なるデータセットを用いて実験を行い、(1)量子フェデレーション学習が正規トレーニングの有効な代替手段であること、(2)ネットワークトポロジとトレーニングの性質がモデル性能に大きな影響を及ぼす可能性があることを示します。 この結果は、量子フェデレーション学習を量子インターネット上に最適に展開するには、より包括的な研究が必要であることを示している。

While the majority of focus in quantum computing has so far been on monolithic quantum systems, quantum communication networks and the quantum internet in particular are increasingly receiving attention from researchers and industry alike. The quantum internet may allow a plethora of applications such as distributed or blind quantum computing, though research still is at an early stage, both for its physical implementation as well as algorithms; thus suitable applications are an open research question. We evaluate a potential application for the quantum internet, namely quantum federated learning. We run experiments under different settings in various scenarios (e.g. network constraints) using several datasets from different domains and show that (1) quantum federated learning is a valid alternative for regular training and (2) network topology and nature of training are crucial considerations as they may drastically influence the models performance. The results indicate that more comprehensive research is required to optimally deploy quantum federated learning on a potential quantum internet.
翻訳日:2024-02-16 15:50:33 公開日:2024-02-15
# メモリモノイドを用いた繰り返し強化学習の再考

Revisiting Recurrent Reinforcement Learning with Memory Monoids ( http://arxiv.org/abs/2402.09900v1 )

ライセンス: Link先を確認
Steven Morad, Chris Lu, Ryan Kortvelesy, Stephan Liwicki, Jakob Foerster, Amanda Prorok(参考訳) RLでは、RNNやトランスフォーマーのようなメモリモデルは、軌道を潜在マルコフ状態にマッピングすることで部分的に観測可能なマルコフ決定プロセス(POMDP)に対処する。 特にリニアリカレントモデルと呼ばれる新しいクラスのメモリモデルと比較すると、どちらのモデルも特に長いシーケンスにスケールしない。 これらのモデルの更新頻度が monoid であることに気付き、新しいメモリ monoid フレームワークを正式に定義することにしました。 リカレントrlのバッチ化に対する従来のアプローチを再検討し、理論的および経験的欠陥を強調する。 メモリモノイドの特性を活用することで、サンプル効率を改善し、リターンを高め、RLにおける繰り返し損失関数の実装を簡略化する新しいバッチ化手法を提案する。

In RL, memory models such as RNNs and transformers address Partially Observable Markov Decision Processes (POMDPs) by mapping trajectories to latent Markov states. Neither model scales particularly well to long sequences, especially compared to an emerging class of memory models sometimes called linear recurrent models. We discover that the recurrent update of these models is a monoid, leading us to formally define a novel memory monoid framework. We revisit the traditional approach to batching in recurrent RL, highlighting both theoretical and empirical deficiencies. Leveraging the properties of memory monoids, we propose a new batching method that improves sample efficiency, increases the return, and simplifies the implementation of recurrent loss functions in RL.
翻訳日:2024-02-16 15:50:16 公開日:2024-02-15
# COVIDHealth: COVID-19の議論を分類するためのベンチマークTwitterデータセットと機械学習ベースのWebアプリケーション

COVIDHealth: A Benchmark Twitter Dataset and Machine Learning based Web Application for Classifying COVID-19 Discussions ( http://arxiv.org/abs/2402.09897v1 )

ライセンス: Link先を確認
Mahathir Mohammad Bishal, Md. Rakibul Hassan Chowdory, Anik Das, Muhammad Ashad Kabir(参考訳) 新型コロナウイルス(covid-19)のパンデミックは、身体と精神の健康に悪影響を及ぼしている。 このパンデミックの間、ソーシャルメディアから健康関連の観点からの洞察を得ることに多くの研究が焦点を当ててきた。 本研究の目的は,ソーシャルメディア上でcovid-19関連の議論を自動的に分類する機械学習ベースのwebアプリケーションを開発することである。 これを実現するために、COVID-19関連Twitterデータをラベル付けし、ベンチマーク分類結果を提供し、Webアプリケーションを開発する。 われわれはTwitter APIを使ってデータを収集し、合計6,667のツイートを健康リスク、予防、症状、伝達、治療の5つのクラスに分類した。 様々な特徴抽出手法を用いて特徴を抽出し, 決定木, ランダムフォレスト, 確率勾配Descent, Adaboost, K-Nearest Neighbour, Logistic Regression, 線形SVCなど, 従来の7種類の機械学習アルゴリズムに適用した。 さらに,LSTM,CNN,RNN,BERTの4つのディープラーニングアルゴリズムを用いて分類を行った。 総じて,深層学習におけるcnnアルゴリズムによる最大f1スコアの90.43%を達成した。 線形SVCアルゴリズムは86.13%のF1スコアを示し、他の伝統的な機械学習手法を上回った。 本研究は,健康関連データ分析の分野に貢献するだけでなく,公衆衛生問題への対処やパンデミック時の意識向上に役立つ,効率的なデータ分類のためのWebベースのツールとして,貴重なリソースを提供する。 データセットとアプリケーションは、このリンクからダウンロードできる。https://github.com/Bishal16/COVID19-Health-Related-Data-Classification-Website。

The COVID-19 pandemic has had adverse effects on both physical and mental health. During this pandemic, numerous studies have focused on gaining insights into health-related perspectives from social media. In this study, our primary objective is to develop a machine learning-based web application for automatically classifying COVID-19-related discussions on social media. To achieve this, we label COVID-19-related Twitter data, provide benchmark classification results, and develop a web application. We collected data using the Twitter API and labeled a total of 6,667 tweets into five different classes: health risks, prevention, symptoms, transmission, and treatment. We extracted features using various feature extraction methods and applied them to seven different traditional machine learning algorithms, including Decision Tree, Random Forest, Stochastic Gradient Descent, Adaboost, K-Nearest Neighbour, Logistic Regression, and Linear SVC. Additionally, we used four deep learning algorithms: LSTM, CNN, RNN, and BERT, for classification. Overall, we achieved a maximum F1 score of 90.43% with the CNN algorithm in deep learning. The Linear SVC algorithm exhibited the highest F1 score at 86.13%, surpassing other traditional machine learning approaches. Our study not only contributes to the field of health-related data analysis but also provides a valuable resource in the form of a web-based tool for efficient data classification, which can aid in addressing public health challenges and increasing awareness during pandemics. We made the dataset and application publicly available, which can be downloaded from this link https://github.com/Bishal16/COVID19-Health-Related-Data-Classification-Website.
翻訳日:2024-02-16 15:50:03 公開日:2024-02-15
# 目新しさだけではない:aiワークフローの実用性とカスタマイズに関する縦断的研究

Not Just Novelty: A Longitudinal Study on Utility and Customization of AI Workflows ( http://arxiv.org/abs/2402.09894v1 )

ライセンス: Link先を確認
Tao Long, Katy Ilonka Gero, Lydia B. Chilton(参考訳) ジェネレーティブAIは、日々のタスクで人々を助ける、斬新で印象的な能力を提供します。 AI出力と人間のインタラクションをチェーンすることで、現実的で複雑な問題を解決するAIワークフローが数多く存在する。 AIには疑いの余地がないが、新規性がなくなった後に生成するAIワークフローがどれほど有用かは定かではない。 さらに、generative aiで構築されたツールは、パーソナライズされ、迅速かつ容易に適応できる可能性があるが、ユーザはカスタマイズの可能性を活用できるだろうか? 我々は,科学コミュニケーションのための生成AIツールの慣れ親しみとカスタマイズを理解するために,12人のユーザを対象に3週間の縦断的研究を行った。 本研究は、ユーザがワークフローの機能と、どの側面が有用かを調べる4.3セッションにおいて、親しみやすいフェーズが続くことを明らかにした。 慣れ親しんだ後、システムの有用性は以前よりも高く評価され、AIの有用性は単なる新規性効果ではないことを示している。 メリットの増加は、主にエンドユーザがプロンプトをカスタマイズできるため、システムを自身のニーズに適合させることによるものだ。 このことは、生成型AIシステムによって、代償を設計できる未来を指し示している。

Generative AI brings novel and impressive abilities to help people in everyday tasks. There are many AI workflows that solve real and complex problems by chaining AI outputs together with human interaction. Although there is an undeniable lure of AI, it's uncertain how useful generative AI workflows are after the novelty wears off. Additionally, tools built with generative AI have the potential to be personalized and adapted quickly and easily, but do users take advantage of the potential to customize? We conducted a three-week longitudinal study with 12 users to understand the familiarization and customization of generative AI tools for science communication. Our study revealed that the familiarization phase lasts for 4.3 sessions, where users explore the capabilities of the workflow and which aspects they find useful. After familiarization, the perceived utility of the system is rated higher than before, indicating that the perceived utility of AI is not just a novelty effect. The increase in benefits mainly comes from end-users' ability to customize prompts, and thus appropriate the system to their own needs. This points to a future where generative AI systems can allow us to design for appropriation.
翻訳日:2024-02-16 15:49:34 公開日:2024-02-15
# 因果的特徴の予測子は新しい領域に一般化しない

Predictors from causal features do not generalize better to new domains ( http://arxiv.org/abs/2402.09891v1 )

ライセンス: Link先を確認
Vivian Y. Nastl and Moritz Hardt(参考訳) 因果的特徴に基づいて訓練された機械学習モデルは、ドメイン間でどのように一般化されるかを研究する。 我々は、健康、雇用、教育、社会的利益、政治の応用を網羅した表表データセット上の16の予測タスクを検討する。 各データセットには複数のドメインがあり、あるドメインでトレーニングされたモデルが別のドメインでどのように機能するかをテストできます。 予測タスク毎に,予測対象に因果的影響を及ぼす特徴を選択する。 私たちの目標は、因果的特徴に基づいてトレーニングされたモデルがドメインをまたがってより一般化するという仮説をテストすることです。 例外なく、因果関係によらず、利用可能な全ての特徴を用いた予測器の方が、因果的特徴を用いた予測器よりもドメイン内および領域外精度が優れていることが分かる。 さらに、あるドメインから別のドメインへの絶対的な精度の低下は、すべての機能を使用するモデルよりも因果予測者にとって望ましいものではない。 新たなドメインに一般化することが目標ならば,すべての利用可能な機能に対して,可能な限り最高のモデルをトレーニングするべきだ。

We study how well machine learning models trained on causal features generalize across domains. We consider 16 prediction tasks on tabular datasets covering applications in health, employment, education, social benefits, and politics. Each dataset comes with multiple domains, allowing us to test how well a model trained in one domain performs in another. For each prediction task, we select features that have a causal influence on the target of prediction. Our goal is to test the hypothesis that models trained on causal features generalize better across domains. Without exception, we find that predictors using all available features, regardless of causality, have better in-domain and out-of-domain accuracy than predictors using causal features. Moreover, even the absolute drop in accuracy from one domain to the other is no better for causal predictors than for models that use all features. If the goal is to generalize to new domains, practitioners might as well train the best possible model on all available features.
翻訳日:2024-02-16 15:49:15 公開日:2024-02-15
# Lester: ビデオオブジェクトのセグメンテーションとトラッキングによるロトスコープアニメーション

Lester: rotoscope animation through video object segmentation and tracking ( http://arxiv.org/abs/2402.09883v1 )

ライセンス: Link先を確認
Ruben Tous(参考訳) 本稿ではレトロな2Dアニメーションをビデオから自動合成する新しい手法であるレスターを紹介する。 本手法は,主に対象セグメンテーションと追跡問題として課題にアプローチする。 ビデオフレームはSegment Anything Model (SAM) で処理され、結果として得られたマスクは、半教師付きビデオオブジェクトセグメンテーションの階層的伝播方法であるDeAOTによって後続のフレームを通して追跡される。 マスクの輪郭の形状はダグラス・ポーカーアルゴリズムによって単純化される。 最後に、顔の特徴、画素化、基本的な影効果を任意に追加することができる。 その結果,この手法は時間的一貫性に優れており,異なるポーズや外観,ダイナミックショット,部分ショット,背景の異なる映像を正しく処理できることがわかった。 提案手法は,時間的整合性に悩まされ,画素出力やスキーマ出力にうまく対応しない拡散モデルに基づくビデオ間翻訳パイプラインよりも,より単純かつ決定論的手法を提供する。 この手法は、手作りの3Dモデルを必要とする3Dのポーズ推定技術よりも実用的であり、処理可能なシーンの種類に関して非常に限定されている。

This article introduces Lester, a novel method to automatically synthetise retro-style 2D animations from videos. The method approaches the challenge mainly as an object segmentation and tracking problem. Video frames are processed with the Segment Anything Model (SAM) and the resulting masks are tracked through subsequent frames with DeAOT, a method of hierarchical propagation for semi-supervised video object segmentation. The geometry of the masks' contours is simplified with the Douglas-Peucker algorithm. Finally, facial traits, pixelation and a basic shadow effect can be optionally added. The results show that the method exhibits an excellent temporal consistency and can correctly process videos with different poses and appearances, dynamic shots, partial shots and diverse backgrounds. The proposed method provides a more simple and deterministic approach than diffusion models based video-to-video translation pipelines, which suffer from temporal consistency problems and do not cope well with pixelated and schematic outputs. The method is also much most practical than techniques based on 3D human pose estimation, which require custom handcrafted 3D models and are very limited with respect to the type of scenes they can process.
翻訳日:2024-02-16 15:48:58 公開日:2024-02-15
# 表情認識に応用したデータ強化と伝達学習手法

Data Augmentation and Transfer Learning Approaches Applied to Facial Expressions Recognition ( http://arxiv.org/abs/2402.09982v1 )

ライセンス: Link先を確認
Enrico Randellini and Leonardo Rigutini and Claudio Sacca'(参考訳) 顔の表情は、人間の心の状態を理解したいときに最初に注意を払うものです。 このように、表情を自動的に認識する能力は非常に興味深い研究分野である。 本稿では,利用可能なトレーニングデータセットのサイズが小さいため,認識タスクの性能を向上させる新しいデータ拡張手法を提案する。 我々は、幾何学的変換を適用し、感情タイプごとに新しい合成画像を生成することができるスクラッチGANモデルを構築した。 したがって、拡張データセット上では、事前学習された畳み込みニューラルネットワークを異なるアーキテクチャで微調整する。 モデルの一般化能力を測定するために,トレーニングデータセットの拡張バージョン上でモデルをトレーニングし,2つの異なるデータベース上でテストする,データベース外プロトコルアプローチを適用した。 これらの手法の組み合わせにより、インセプションresnetv2モデルの平均精度値は85\%に達する。

The face expression is the first thing we pay attention to when we want to understand a person's state of mind. Thus, the ability to recognize facial expressions in an automatic way is a very interesting research field. In this paper, because the small size of available training datasets, we propose a novel data augmentation technique that improves the performances in the recognition task. We apply geometrical transformations and build from scratch GAN models able to generate new synthetic images for each emotion type. Thus, on the augmented datasets we fine tune pretrained convolutional neural networks with different architectures. To measure the generalization ability of the models, we apply extra-database protocol approach, namely we train models on the augmented versions of training dataset and test them on two different databases. The combination of these techniques allows to reach average accuracy values of the order of 85\% for the InceptionResNetV2 model.
翻訳日:2024-02-16 15:39:23 公開日:2024-02-15
# 回転機の状態監視機能の設計について

On Designing Features for Condition Monitoring of Rotating Machines ( http://arxiv.org/abs/2402.09957v1 )

ライセンス: Link先を確認
Seetaram Maurya and Nishchal K. Verma(参考訳) 1次元生センサデータを用いた回転機械の故障認識のための入力特徴設計法が提案されている。 利用可能なメソッドは複雑で、経験的なアプローチに依存しており、使用する状態監視データによって異なる場合がある。 そこで本稿では,異なる時系列センサデータに対して特徴抽出処理を統一する入力特徴を設計するための新しいアルゴリズムを提案する。 入力特徴を設計・抽出するための新しい知見は、ヒストグラム理論のレンズを通して得られる。 提案アルゴリズムは,ディープニューラルネットワークに基づく分類器に対する単純な分類器に適した識別入力特徴を抽出する。 設計された入力機能は、機械条件認識のための単一のフレームワークでエンドツーエンドのトレーニングを施した分類器への入力として与えられる。 提案手法は3つのリアルタイムデータセットで検証されている。 a)音響データセット b) cwru振動データセット、及び c) ims振動データセット。 実時間結果と比較研究は、提案手法が機械の健康状態を予測するための有効性を示している。

Various methods for designing input features have been proposed for fault recognition in rotating machines using one-dimensional raw sensor data. The available methods are complex, rely on empirical approaches, and may differ depending on the condition monitoring data used. Therefore, this article proposes a novel algorithm to design input features that unifies the feature extraction process for different time-series sensor data. This new insight for designing/extracting input features is obtained through the lens of histogram theory. The proposed algorithm extracts discriminative input features, which are suitable for a simple classifier to deep neural network-based classifiers. The designed input features are given as input to the classifier with end-to-end training in a single framework for machine conditions recognition. The proposed scheme has been validated through three real-time datasets: a) acoustic dataset, b) CWRU vibration dataset, and c) IMS vibration dataset. The real-time results and comparative study show the effectiveness of the proposed scheme for the prediction of the machine's health states.
翻訳日:2024-02-16 15:39:09 公開日:2024-02-15
# ニュースアグリゲータの視点からのニュース検証への量子的アプローチ

A Quantum Approach to News Verification from the Perspective of a News Aggregator ( http://arxiv.org/abs/2402.09956v1 )

ライセンス: Link先を確認
Theodore Andronikos and Alla Sirokofskich(参考訳) デジタル情報の動的ランドスケープでは、誤情報や偽ニュースの出現が急激な課題となっている。 本稿では,空間的に拡散しても量子アクターが合意に達する方法に着想を得て,ニュースの検証にまったく新しいアプローチをとる。 我々は、ニュース集約者が、他のニュースソースであろうと、偽情報を広めようとするファクトチェッカーであろうと、悪質なアクターを嗅ぎ分けるのを助けるために、量子「絡み合い」を利用したアルゴリズムを、我々の知る限りでは、根本的に新しいアルゴリズムを提案する。 このアルゴリズムは量子署名に頼らず、我々がすでに持っている基本的な量子技術、特に ``epr pairs''' と呼ばれる特別な粒子のペアを使用しており、他のオプションよりもはるかに作成が容易である。 より複雑な絡み合った状態は、あまりにも多くのボールをジャグリングしすぎるようなものです。 例えば、「GHZ状態」のようなより大きく複雑な状態は小さな群に対して働くが、それらはより大きな数で乱になる。 したがって、私たちは最も単純な形の絡み合い状態であるベル状態に固執し、ゲームに何人のプレイヤーがいるにも拘わらず簡単に生成できる。 つまり、私たちのアルゴリズムはセットアップが速くなり、多くの参加者で動作し、現実世界での使用にはより実用的です。 ボーナスポイント: プレイヤーの数に関係なく、一定数のステップで完了し、さらにスケーラブルになります。 この新しいアプローチは、量子力学の奇妙で素晴らしい世界を使って、デジタル時代の誤った情報と戦う強力で効率的な方法をもたらすかもしれない。

In the dynamic landscape of digital information, the rise of misinformation and fake news presents a pressing challenge. This paper takes a completely new approach to verifying news, inspired by how quantum actors can reach agreement even when they are spatially spread out. We propose a radically new, to the best of our knowledge, algorithm that uses quantum ``entanglement'' (think of it as a special connection) to help news aggregators sniff out bad actors, whether they be other news sources or even fact-checkers trying to spread misinformation. This algorithm doesn't rely on quantum signatures, it just uses basic quantum technology we already have, in particular, special pairs of particles called ``EPR pairs'' that are much easier to create than other options. More complex entangled states are like juggling too many balls - they're hard to make and slow things down, especially when many players are involved. For instance, bigger, more complex states like ``GHZ states'' work for small groups, but they become messy with larger numbers. So, we stick with Bell states, the simplest form of entanglement, which are easy to generate no matter how many players are in the game. This means our algorithm is faster to set up, works for any number of participants, and is more practical for real-world use. Bonus points: it finishes in a fixed number of steps, regardless of how many players are involved, making it even more scalable. This new approach may lead to a powerful and efficient way to fight misinformation in the digital age, using the weird and wonderful world of quantum mechanics.
翻訳日:2024-02-16 15:38:56 公開日:2024-02-15
# 良いプロンプトを作るか、模範的な対話を提供するか? パーソナラベース対話生成のための文脈内学習に関する研究

Crafting a Good Prompt or Providing Exemplary Dialogues? A Study of In-Context Learning for Persona-based Dialogue Generation ( http://arxiv.org/abs/2402.09954v1 )

ライセンス: Link先を確認
Jiashu Pu,Yajing Wan,Yuru Zhang,Jing Chen,Ling Cheng,Qian Shao,Yongzhu Chang,Tangjie Lv,Rongsheng Zhang(参考訳) これまでICL(In-context Learning)研究は、分類、機械翻訳、text2tableなどのタスクに重点を置いてきたが、ICLが人間に似た対話生成を改善できるかどうかの研究は少ない。 本研究は,多言語モデル(LLM)の対話生成におけるICL機能を体系的に検討し,高品質な中国語対話データセットに関する広範な実験を行うことによって,このギャップを埋めるものである。 実験結果から3つの結論が導かれる。 1) 迅速な指示の調整は,生成品質を改善するための最も直接的かつ効果的かつ経済的方法である。 2)ランダムに検索するデモ(デモ)は,多種多様で効果的な情報の量が多いため,おそらく最高の結果を達成している。 3) デモにおけるマルチターン関連やシングルターンセマンティクスを破壊しても,デモの数が増えても対話性能が向上し,LLMが劣化した対話デモから学習できることが証明された。 ICL機構の以前の説明、例えば$n$-gram誘導ヘッドは、この現象を完全に説明できない。

Previous in-context learning (ICL) research has focused on tasks such as classification, machine translation, text2table, etc., while studies on whether ICL can improve human-like dialogue generation are scarce. Our work fills this gap by systematically investigating the ICL capabilities of large language models (LLMs) in persona-based dialogue generation, conducting extensive experiments on high-quality real human Chinese dialogue datasets. From experimental results, we draw three conclusions: 1) adjusting prompt instructions is the most direct, effective, and economical way to improve generation quality; 2) randomly retrieving demonstrations (demos) achieves the best results, possibly due to the greater diversity and the amount of effective information; counter-intuitively, retrieving demos with a context identical to the query performs the worst; 3) even when we destroy the multi-turn associations and single-turn semantics in the demos, increasing the number of demos still improves dialogue performance, proving that LLMs can learn from corrupted dialogue demos. Previous explanations of the ICL mechanism, such as $n$-gram induction head, cannot fully account for this phenomenon.
翻訳日:2024-02-16 15:38:26 公開日:2024-02-15
# IMUスーパービジョンを用いたニューラル5G屋内位置推定

Neural 5G Indoor Localization with IMU Supervision ( http://arxiv.org/abs/2402.09948v1 )

ライセンス: Link先を確認
Aleksandr Ermolov, Shreya Kadambi, Maximilian Arnold, Mohammed Hirzallah, Roohollah Amiri, Deepak Singh Mahendar Singh, Srinivas Yerramalli, Daniel Dijkman, Fatih Porikli, Taesang Yoo, Bence Major(参考訳) 無線信号は、ユビキタスであり、暗闇の中で動作し、プライバシを維持するため、ユーザのローカライズに適しています。 多くの先行研究は、チャネル状態情報(csi)と位置の完全な教師付きマッピングを学ぶ。 しかし、このアプローチは取得に非常に費用がかかる位置ラベルに依存している。 本研究では, 慣性測定ユニット(IMU)から算出した擬似ラベルを用いて, この要件を緩和する。 そこで本研究では、IMUの二重統合とローカライズシステムの訓練のための実用的なアルゴリズムを提案する。 5G測定の実測値のシミュレーションと課題に対して,デシメータレベルの精度を示す。 当社のIMU管理手法は, 完全管理方式と類似しているが, 展開に要する労力ははるかに少ない。

Radio signals are well suited for user localization because they are ubiquitous, can operate in the dark and maintain privacy. Many prior works learn mappings between channel state information (CSI) and position fully-supervised. However, that approach relies on position labels which are very expensive to acquire. In this work, this requirement is relaxed by using pseudo-labels during deployment, which are calculated from an inertial measurement unit (IMU). We propose practical algorithms for IMU double integration and training of the localization system. We show decimeter-level accuracy on simulated and challenging real data of 5G measurements. Our IMU-supervised method performs similarly to fully-supervised, but requires much less effort to deploy.
翻訳日:2024-02-16 15:38:04 公開日:2024-02-15
# 分布値をもつ確率モデルを説明する

Explaining Probabilistic Models with Distributional Values ( http://arxiv.org/abs/2402.09947v1 )

ライセンス: Link先を確認
Luca Franceschi, Michele Donini, C\'edric Archambeau and Matthias Seeger(参考訳) 説明可能な機械学習の大きな分野は、協調ゲーム理論に基づいている。 しかし、研究はゲーム理論的な説明が誤解を招いたり、解釈が難しいことを示唆している。 私たちは、説明したいもの(例えば、分類器の出力)と、shapのような現在のメソッド(例えば、クラスのスカラー確率)の間には、しばしば重大なミスマッチがあると主張している。 本稿では,協調ゲームや値演算子を一般化することで確率モデルのギャップを解消する。 分布値, モデル出力の変化を追跡する確率変数(例えば, 予測されたクラスの反転)を導入し, ガウス, ベルヌーイ, カテゴリー的ペイオフによるゲームの解析式を導出する。 さらに,本フレームワークは,視覚と言語モデルに関するケーススタディで,きめ細かな,洞察に富んだ説明を提供することを示す。

A large branch of explainable machine learning is grounded in cooperative game theory. However, research indicates that game-theoretic explanations may mislead or be hard to interpret. We argue that often there is a critical mismatch between what one wishes to explain (e.g. the output of a classifier) and what current methods such as SHAP explain (e.g. the scalar probability of a class). This paper addresses such gap for probabilistic models by generalising cooperative games and value operators. We introduce the distributional values, random variables that track changes in the model output (e.g. flipping of the predicted class) and derive their analytic expressions for games with Gaussian, Bernoulli and Categorical payoffs. We further establish several characterising properties, and show that our framework provides fine-grained and insightful explanations with case studies on vision and language models.
翻訳日:2024-02-16 15:37:53 公開日:2024-02-15
# fedlion: 少ない通信で高速な適応フェデレーション最適化

FedLion: Faster Adaptive Federated Optimization with Fewer Communication ( http://arxiv.org/abs/2402.09941v1 )

ライセンス: Link先を確認
Zhiwei Tang, Tsung-Hui Chang(参考訳) 分散データ間で機械学習モデルをトレーニングするフレームワークであるFederated Learning(FL)では、FedAvgのような有名なアルゴリズムは収束速度が遅くなり、トレーニング中に通信コストが高くなる傾向にある。 この課題に対処するために、最近提案された集中型適応アルゴリズムLion (Chen et al. 2o23) の鍵要素をシームレスにFLフレームワークに組み込む適応的フェデレーション最適化アルゴリズムであるFedLionを紹介する。 広く採用されている2つのflベンチマークの包括的評価を通じて、federionはfafed(wu et al. 2023)やfedaを含む以前の最先端適応アルゴリズムよりも優れていることを実証する。 さらに、局所訓練に符号付き勾配を用いることにより、既存の適応アルゴリズムと比較して、アップリンク通信時のデータ伝送要求を大幅に削減し、通信コストをさらに削減する。 最後に、この研究には新しい理論分析も含まれており、FedAvgのような既存のFLアルゴリズムよりも高速な収束率が得られることを示している。

In Federated Learning (FL), a framework to train machine learning models across distributed data, well-known algorithms like FedAvg tend to have slow convergence rates, resulting in high communication costs during training. To address this challenge, we introduce FedLion, an adaptive federated optimization algorithm that seamlessly incorporates key elements from the recently proposed centralized adaptive algorithm, Lion (Chen et al. 2o23), into the FL framework. Through comprehensive evaluations on two widely adopted FL benchmarks, we demonstrate that FedLion outperforms previous state-of-the-art adaptive algorithms, including FAFED (Wu et al. 2023) and FedDA. Moreover, thanks to the use of signed gradients in local training, FedLion substantially reduces data transmission requirements during uplink communication when compared to existing adaptive algorithms, further reducing communication costs. Last but not least, this work also includes a novel theoretical analysis, showcasing that FedLion attains faster convergence rate than established FL algorithms like FedAvg.
翻訳日:2024-02-16 15:37:19 公開日:2024-02-15
# 建設業におけるジェネレーティブAI : 最先端の分析

Generative AI in the Construction Industry: A State-of-the-art Analysis ( http://arxiv.org/abs/2402.09939v1 )

ライセンス: Link先を確認
Ridwan Taiwo, Idris Temitope Bello, Sulemana Fatoama Abdulai, Abdul-Mugis Yussif, Babatunde Abiodun Salami, Abdullahi Saka, Tarek Zayed(参考訳) 建設産業は世界経済の重要な分野であるが、設計、計画、調達、検査、保守など様々なプロセスにおいて多くの生産性上の課題に直面している。 入力や事前知識に基づいて、テキスト、画像、ビデオ、コードといった、新しく現実的なデータやコンテンツを作成できる生成型人工知能(ai)は、これらの課題に対処するための革新的で破壊的なソリューションを提供する。 しかし、建設業界における生成AIの現状、機会、課題については、文献に差がある。 This study aims to fill this gap by providing a state-of-the-art analysis of generative AI in construction, with three objectives: (1) to review and categorize the existing and emerging generative AI opportunities and challenges in the construction industry; (2) to propose a framework for construction firms to build customized generative AI solutions using their own data, comprising steps such as data collection, dataset curation, training custom large language model (LLM), model evaluation, and deployment; and (3) to demonstrate the framework via a case study of developing a generative model for querying contract documents. その結果,検索拡張生成(RAG)により,ベースラインLLMは5.2,9.4,4.8%向上し,品質,妥当性,再現性が向上した。 本研究は, 建設業界全体での生産性, 品質, 安全性, 持続可能性を高めるため, 生産型AI技術の導入を導く包括的な分析および実践的枠組みを, 研究者や建設専門家に提供する。

The construction industry is a vital sector of the global economy, but it faces many productivity challenges in various processes, such as design, planning, procurement, inspection, and maintenance. Generative artificial intelligence (AI), which can create novel and realistic data or content, such as text, image, video, or code, based on some input or prior knowledge, offers innovative and disruptive solutions to address these challenges. However, there is a gap in the literature on the current state, opportunities, and challenges of generative AI in the construction industry. This study aims to fill this gap by providing a state-of-the-art analysis of generative AI in construction, with three objectives: (1) to review and categorize the existing and emerging generative AI opportunities and challenges in the construction industry; (2) to propose a framework for construction firms to build customized generative AI solutions using their own data, comprising steps such as data collection, dataset curation, training custom large language model (LLM), model evaluation, and deployment; and (3) to demonstrate the framework via a case study of developing a generative model for querying contract documents. The results show that retrieval augmented generation (RAG) improves the baseline LLM by 5.2, 9.4, and 4.8% in terms of quality, relevance, and reproducibility. This study provides academics and construction professionals with a comprehensive analysis and practical framework to guide the adoption of generative AI techniques to enhance productivity, quality, safety, and sustainability across the construction industry.
翻訳日:2024-02-16 15:36:58 公開日:2024-02-15
# 奇数な大きさの高度非線形ブール関数の体系的評価

A Systematic Evaluation of Evolving Highly Nonlinear Boolean Functions in Odd Sizes ( http://arxiv.org/abs/2402.09937v1 )

ライセンス: Link先を確認
Claude Carlet, Marko {\DH}urasevic, Domagoj Jakobovic, Stjepan Picek, Luca Mariot(参考訳) ブール関数は様々な用途で用いられる数学的対象である。 異なるアプリケーションにも異なる要件があり、Boolean関数の研究は非常に活発である。 過去30年間で、進化的アルゴリズムは異なる大きさと異なる性質でブール関数を進化させる強力な選択肢であることが示されている。 それでも、これらの作品の多くは同様の設定を考慮し、進化的アルゴリズムの観点から最も興味深い結果を提供する。 この研究は、奇サイズの高非線形ブール関数を進化させる問題を考える。 問題定式化はシンプルに聞こえるが、問題は極めて困難であり、関連する作業は非常に少ない。 3つの解エンコーディングと4つのブール関数サイズを考慮し、詳細な実験解析を行う。 その結果,この問題は困難であり,最小の試験サイズを除いて最適解を見つけることは不可能であることがわかった。 しかし、進化的アルゴリズムに局所探索を追加すると、非線形性241の9つの入力でブール関数を見つけることができました。

Boolean functions are mathematical objects used in diverse applications. Different applications also have different requirements, making the research on Boolean functions very active. In the last 30 years, evolutionary algorithms have been shown to be a strong option for evolving Boolean functions in different sizes and with different properties. Still, most of those works consider similar settings and provide results that are mostly interesting from the evolutionary algorithm's perspective. This work considers the problem of evolving highly nonlinear Boolean functions in odd sizes. While the problem formulation sounds simple, the problem is remarkably difficult, and the related work is extremely scarce. We consider three solutions encodings and four Boolean function sizes and run a detailed experimental analysis. Our results show that the problem is challenging, and finding optimal solutions is impossible except for the smallest tested size. However, once we added local search to the evolutionary algorithm, we managed to find a Boolean function in nine inputs with nonlinearity 241, which, to our knowledge, had never been accomplished before with evolutionary algorithms.
翻訳日:2024-02-16 15:36:36 公開日:2024-02-15
# フレネルゾーンプレートによるド・ブロイ物質波の電気制御集束

Electrically controlled focusing of de Broglie matter waves by Fresnel zone plate ( http://arxiv.org/abs/2402.09935v1 )

ライセンス: Link先を確認
Sushanta Barman and Sudeep Bhattacharjee(参考訳) 古典から量子物質波動光学への進化は、変換光学デバイスの影響を受けている。 フレネルゾーンプレート(fzp)はもともと光操作用に設計されたもので、物質波の応用範囲が拡大している。 本研究では、電気バイアスFZPによるヘリウム原子の集束を数値解析した。 fzpのn$th不透明ゾーンは以下の3つの方法で静電バイアスを受ける。 (i)$V_n=V_1$、$V_1$は中心領域に印加されるバイアス電圧である。 (ii)$v_n=v_1 \sqrt{n}$,および (iii)$V_n = V_1 \sin (k_En)$,$k_E$が放射変調因子である。 送信係数(T_c$)、焦点長(f$)、集束波パケット(\sigma_F$)、横強度プロファイル、集束効率(\eta$)に対するFZPの偏りの影響を検討した。 本研究は、fzpの電気バイアスが、誘導偏光電位と原子-表面相互作用を変化させることで、中性原子の回折焦点を変調することを示した。 V_n=V_1$のバイアスはFZPのマルチフォーカスを誘導し、ウェーブパケット伝送と集束効率を低下させる。 V_n=V_1 \sqrt{n}$でのバイアスは送信係数を23.7 %$で大幅に向上させ、焦点長$f$を103 %$で増加させ、フォーカス効率を10 %$から20.17 %$に改善し、フォーカス性能の向上を示す。 v_n=v_1 \sin(k_e n)$ によるバイアスは、パラメータ $k_e$ と $v_1$ による物質波の集中制御性を高める。 この場合、他のケースと比較して、より効率の良い20.3\%$の高度に集中したウェーブパケットが観察される。 この発見は、ヘリウム顕微鏡の性能向上、原子チップ上の冷原子トラップの制御を可能にすること、量子電子デバイスのための高精度原子リソグラフィなど、原子光学の様々な新興応用に役立つだろう。

The evolution from classical to quantum matter wave optics has been influenced by transformative optical devices. Fresnel zone plates (FZP), initially designed for light manipulation, have now found expanded applications in matter waves. In this study, focusing of helium atoms by an electrically biased FZP is investigated numerically. The $n$th opaque zone of the FZP is subject to electrostatic biasing using three ways: (i) $V_n=V_1$, where $V_1$ is the biasing voltage applied to the central zone, (ii) $V_n=V_1 \sqrt{n}$, and (iii) $V_n = V_1 \sin (k_E n)$, with $k_E$ being the radial modulation factor. The effect of biasing the FZP on the transmission coefficient ($T_c$), focal length ($f$), size of the focused wave packet ($\sigma_F$), transverse intensity profile, and focusing efficiency ($\eta$) is investigated. The study reveals that the electrical biasing of the FZP modulates the diffractive focusing of neutral atoms by altering the atom-surface interaction with induced polarization potential. It is observed that biasing with $V_n=V_1$ induces multi-focusing of the FZP, reducing wave packet transmission and focusing efficiency. Biasing with $V_n=V_1 \sqrt{n}$ significantly enhances the transmission coefficient by $23.7\%$, increases the focal length $f$ by $103\%$, and improves the focusing efficiency from $10\%$ to $20.17\%$, indicating enhanced focusing performance. Biasing with $V_n=V_1 \sin(k_E n)$ offers increased controllability in focusing matter waves through the parameters $k_E$ and $V_1$. In this case, a highly intense focused wave packet with a better efficiency of $20.3\%$ is observed compared to the other cases. The findings will be helpful in various emerging applications of atom optics, such as improving the performance of helium microscopes, enabling control in cold atom trapping on atom chips, and high-precision atom lithography for quantum electronic devices.
翻訳日:2024-02-16 15:36:21 公開日:2024-02-15
# 思慮に注意を払う:オンライン談話における行動検出のための実践的ニュアンス

Paying Attention to Deflections: Mining Pragmatic Nuances for Whataboutism Detection in Online Discourse ( http://arxiv.org/abs/2402.09934v1 )

ライセンス: Link先を確認
Khiem Phi, Noushin Salek Faramarzi, Chenlu Wang, Ritwik Banerjee(参考訳) whataboutismは、物語をディスラプトし、不信感を和らげる強力なツールだが、量的nlp研究では未調査のままである。 さらに、過去の研究では、誤情報とプロパガンダの戦略としての使用を、実用的かつ意味的なフレーミングのツールとしての使用と区別していない。 我々は,twitter と youtube の新しいデータセットを導入し,その重複と,何に対する関心,プロパガンダ,そしてtu quoque の誤りの区別を明らかにした。 さらに,近年の言語意味論研究を参考に,「何について」という語彙構造と「何に関する」概念を区別する。 本実験は,その検出に独特の課題を生じさせ,負のサンプルマイニングに注意重みを用いた新しい手法の導入を促した。 われわれのtwitterとyoutubeのコレクションでは、これまでの最先端の方法に比べて4%と10%が大幅に改善している。

Whataboutism, a potent tool for disrupting narratives and sowing distrust, remains under-explored in quantitative NLP research. Moreover, past work has not distinguished its use as a strategy for misinformation and propaganda from its use as a tool for pragmatic and semantic framing. We introduce new datasets from Twitter and YouTube, revealing overlaps as well as distinctions between whataboutism, propaganda, and the tu quoque fallacy. Furthermore, drawing on recent work in linguistic semantics, we differentiate the `what about' lexical construct from whataboutism. Our experiments bring to light unique challenges in its accurate detection, prompting the introduction of a novel method using attention weights for negative sample mining. We report significant improvements of 4% and 10% over previous state-of-the-art methods in our Twitter and YouTube collections, respectively.
翻訳日:2024-02-16 15:35:39 公開日:2024-02-15
# バイオインフォマティクスの量子アルゴリズムによるタンパク質間の類似性の計算

Quantum algorithm for bioinformatics to compute the similarity between proteins ( http://arxiv.org/abs/2402.09927v1 )

ライセンス: Link先を確認
Anthony Chagneau, Yousra Massaoudi, Imene Derbali and Linda Yahiaoui(参考訳) 新型コロナウイルスのパンデミックを受けて、薬物発見は私たちの社会で大きな課題となっている。 製薬会社でさえ、既にコンピューターを使って薬物発見を加速している。 彼らは、新しい薬物の研究と開発プロセスのスピードを改善するために、量子コンピューティングにますます関心を寄せている。 本稿では,タンパク質データベースと他の量子プロセスで発生したランダムシーケンスを生成し,タンパク質間の類似度を計算する量子法を提案する。 目的は、生成したタンパク質に最も近いタンパク質を見つけ、これらのタンパク質を秩序づけることである。 まず、著者らはテストタンパク質と呼ばれるタンパク質を定義するタンパク質の量子生成体の構築について述べる。 目的は、与えられたタンパク質データベースに従ってランダムに定義されたアミノ酸配列を持つことである。 筆者らは,テストタンパク質とデータベースの各タンパク質の類似度を計算するための2つの異なる方法について記述し,本実験タンパク質とelafinのケーススタディで得られた結果について述べる。

Drug discovery has become a main challenge in our society, following the Covid-19 pandemic. Even pharmaceutical companies are already using computing to accelerate drug discovery. They are increasingly interested in Quantum Computing with a view to improve the speed of research and development process for new drugs. Here, the authors propose a quantum method to generate random sequences based on the occurrence in a protein database and another quantum process to compute a similarity rate between proteins. The aim is to find proteins that are closest to the generated protein and to have an ordering of these proteins. First, the authors will present the construction of a quantum generator of proteins who define a protein, called the test protein. The aim is to have a randomly defined amino-acids sequence according to a proteins database given. The authors will then describe two different methods to compute the similarity's rate between the test protein and each protein of the database and present results obtained for the test protein and for a case study, the elafin.
翻訳日:2024-02-16 15:35:24 公開日:2024-02-15
# ソフトウェア実践者のキャリアにおける役割モデルの特徴 : インタビュー研究

Characterizing Role Models in Software Practitioners' Career: An Interview Study ( http://arxiv.org/abs/2402.09925v1 )

ライセンス: Link先を確認
Mary S\'anchez-Gord\'on, Ricardo Colomo-Palacios and Alex Sanchez Gordon(参考訳) ロールモデル(英: role model)は、価値、行動、業績、個人的特徴の観点から、他人が従うための例として機能する人物である。 本稿では,ソフトウェア実践者のキャリアにロールモデルがどのように影響するかを考察する。 本研究の目的は, 役割モデルに有意な役割モデルが存在するか, 役割モデルにどのような特徴があるのかを理解することである。 そのために、著者は10人のラテンアメリカのソフトウェア実践者のインタビューから収集したデータを分析するために、テーマコーディングのアプローチを用いる。 研究の結果,ロールモデルは知識の源泉として認識されたが,参加者の大多数は,キャリア段階に関わらず,人間側やそのロールモデルが具体化している道徳的価値観に対する強い関心を示した。 この研究は、あらゆる実践者がロールモデルと見なせることも示している。

A role model is a person who serves as an example for others to follow, especially in terms of values, behavior, achievements, and personal characteristics. In this paper, authors study how role models influence software practitioners careers, an aspect not studied in the literature before. By means of this study, authors aim to understand if there are any salient role model archetypes and what characteristics are valued by participants in their role models. To do so, authors use a thematic coding approach to analyze the data collected from interviewing ten Latin American software practitioners. Findings reveal that role models were perceived as sources of knowledge, yet the majority of participants, regardless of their career stage, displayed a stronger interest in the human side and the moral values that their role models embodied. This study also shows that any practitioner can be viewed as a role model.
翻訳日:2024-02-16 15:35:11 公開日:2024-02-15
# 分散シフト下におけるロバスト深部強化学習のためのリスク感性ソフトアクタクリティカル

Risk-Sensitive Soft Actor-Critic for Robust Deep Reinforcement Learning under Distribution Shifts ( http://arxiv.org/abs/2402.09992v1 )

ライセンス: Link先を確認
Tobias Enders, James Harrison, Maximilian Schiffer(参考訳) 本研究では,多段階確率的組合せ最適化問題における分散シフトに対する深層強化学習アルゴリズムの堅牢性を検討した。 この文脈では、リスクに敏感なアルゴリズムは堅牢なポリシーを学ぶことを約束する。 この分野は強化学習コミュニティに一般的に関心があるが、ほとんどの研究は現実世界のパフォーマンスよりも理論的な結果に焦点を当てている。 本研究では,リスクに敏感な新しい深層強化学習アルゴリズムを形式的に導出し,その効果を数値的に証明することで,このギャップを埋めることを目的とする。 具体的には,各q値に対するベルマン方程式のバージョンを導出することにより,エントロピー的リスク測度に対する離散的ソフト・アクタ-クリティックを導入する。 我々は、対応する政策改善結果を確立し、実用的なアルゴリズムを推測する。 本稿では,典型的な文脈的多段階確率的組合せ最適化問題を表現する環境を導入し,実分布シフトに対するアルゴリズムのロバスト性を検証する数値実験を行い,学習分布の性能を損なうことなく検証する。 提案アルゴリズムは,リスクニュートラルなソフトアクター・クライブや,頑健な深層強化学習のための2つのベンチマーク手法よりも優れていることを示す。 そこで我々は,文脈的多段階確率的組合せ最適化問題の領域における分散シフト下での強化学習の堅牢性に関する最初の構造化解析を行った。

We study the robustness of deep reinforcement learning algorithms against distribution shifts within contextual multi-stage stochastic combinatorial optimization problems from the operations research domain. In this context, risk-sensitive algorithms promise to learn robust policies. While this field is of general interest to the reinforcement learning community, most studies up-to-date focus on theoretical results rather than real-world performance. With this work, we aim to bridge this gap by formally deriving a novel risk-sensitive deep reinforcement learning algorithm while providing numerical evidence for its efficacy. Specifically, we introduce discrete Soft Actor-Critic for the entropic risk measure by deriving a version of the Bellman equation for the respective Q-values. We establish a corresponding policy improvement result and infer a practical algorithm. We introduce an environment that represents typical contextual multi-stage stochastic combinatorial optimization problems and perform numerical experiments to empirically validate our algorithm's robustness against realistic distribution shifts, without compromising performance on the training distribution. We show that our algorithm is superior to risk-neutral Soft Actor-Critic as well as to two benchmark approaches for robust deep reinforcement learning. Thereby, we provide the first structured analysis on the robustness of reinforcement learning under distribution shifts in the realm of contextual multi-stage stochastic combinatorial optimization problems.
翻訳日:2024-02-16 15:27:28 公開日:2024-02-15
# TIAViz:コンピュータ病理モデルのためのブラウザベースの可視化ツール

TIAViz: A Browser-based Visualization Tool for Computational Pathology Models ( http://arxiv.org/abs/2402.09990v1 )

ライセンス: Link先を確認
Mark Eastwood and John Pocock and Mostafa Jahanifar and Adam Shephard and Skiros Habib and Ethar Alzaid and Abdullah Alsalemi and Jan Lukas Robertus and Nasir Rajpoot and Shan Raza and Fayyaz Minhas(参考訳) デジタル病理学は現代の医療システムで大きな注目を集めている。 光学顕微鏡からデジタル画像へのこのシフトは、診断、効率性、およびaiツールを病理学者のワークフローに統合する可能性をもたらす。 この重要な側面は可視化である。 デジタル病理学における機械学習(ml)モデルの開発を通じて、モデルのアウトプットや予測からモデルのトレーニングやテストに使用される基盤となるアノテーションやイメージまで、柔軟でオープンに利用可能なモデルを視覚化するツールを持つことが重要です。 tiatoolboxに組み込まれたpythonベースの可視化ツールであるtiavizを紹介する。グラフ、ヒートマップ、セグメンテーション、アノテーション、その他のwsisを含む、スライドイメージ全体にさまざまな情報を柔軟でインタラクティブでズーム可能なオーバーレイを可能にする。 UIはブラウザベースで、ローカルでもリモートマシンでも、あるいはサーバ上でも、公開デモを提供することができる。 https://github.com/TissueImageAnalytics/tiatoolbox と pip インストール (pip install tiatoolbox) と conda は TIAToolbox の一部として提供されている。

Digital pathology has gained significant traction in modern healthcare systems. This shift from optical microscopes to digital imagery brings with it the potential for improved diagnosis, efficiency, and the integration of AI tools into the pathologists workflow. A critical aspect of this is visualization. Throughout the development of a machine learning (ML) model in digital pathology, it is crucial to have flexible, openly available tools to visualize models, from their outputs and predictions to the underlying annotations and images used to train or test a model. We introduce TIAViz, a Python-based visualization tool built into TIAToolbox which allows flexible, interactive, fully zoomable overlay of a wide variety of information onto whole slide images, including graphs, heatmaps, segmentations, annotations and other WSIs. The UI is browser-based, allowing use either locally, on a remote machine, or on a server to provide publicly available demos. This tool is open source and is made available at: https://github.com/TissueImageAnalytics/tiatoolbox and via pip installation (pip install tiatoolbox) and conda as part of TIAToolbox.
翻訳日:2024-02-16 15:27:07 公開日:2024-02-15
# 橋としてのllms:接地されたマルチモーダル名前付きエンティティ認識の再構成

LLMs as Bridges: Reformulating Grounded Multimodal Named Entity Recognition ( http://arxiv.org/abs/2402.09989v1 )

ライセンス: Link先を確認
Jinyuan Li, Han Li, Di Sun, Jiahao Wang, Wenkun Zhang, Zan Wang, Gang Pan(参考訳) Grounded Multimodal Named Entity Recognition (GMNER) は、名前付きエンティティ、エンティティタイプおよび対応する視覚領域を識別することを目的とした、初期段階のマルチモーダルタスクである。 GMNERタスクは2つの難しい特性を示す。 1) ソーシャルメディアにおける画像とテキストのペア間の弱い相関関係は, 名前付きエンティティのかなりの部分が接地不能となる。 2) 類似したタスクで一般的に用いられる粗粒度参照表現(句のローカライズや表現理解など)と細粒度参照表現との区別が存在する。 本稿では,大規模な言語モデル(LLM)を接続ブリッジとして活用することにより,GMNERをMNER-VE-VGタスクに再構成する統合フレームワークであるRiVEGを提案する。 この改革は2つの利点をもたらす。 1) MNERの最適性能を維持し, 地域特徴の事前抽出にオブジェクト検出手法を用いる必要をなくし, 既存のGMNER手法の2つの大きな限界に自然に対処する。 2) エンティティ拡張表現とビジュアルエンタテインメント(VE)モジュールの導入により,ビジュアルグラウンド(VG)とエンティティグラウンド(EG)が統合される。 これによってRiVEGは,現在のあるいは将来的なマルチモーダル事前トレーニングモデルのVisual EntailmentとVisual Grounding機能を,懸命に継承することができる。 大規模な実験により、RiVEGは既存のGMNERデータセットの最先端の手法より優れており、全3つのサブタスクで10.65%、6.21%、および8.83%の絶対的なリードを達成している。

Grounded Multimodal Named Entity Recognition (GMNER) is a nascent multimodal task that aims to identify named entities, entity types and their corresponding visual regions. GMNER task exhibits two challenging properties: 1) The weak correlation between image-text pairs in social media results in a significant portion of named entities being ungroundable. 2) There exists a distinction between coarse-grained referring expressions commonly used in similar tasks (e.g., phrase localization, referring expression comprehension) and fine-grained named entities. In this paper, we propose RiVEG, a unified framework that reformulates GMNER into a joint MNER-VE-VG task by leveraging large language models (LLMs) as a connecting bridge. This reformulation brings two benefits: 1) It maintains the optimal MNER performance and eliminates the need for employing object detection methods to pre-extract regional features, thereby naturally addressing two major limitations of existing GMNER methods. 2) The introduction of entity expansion expression and Visual Entailment (VE) Module unifies Visual Grounding (VG) and Entity Grounding (EG). It enables RiVEG to effortlessly inherit the Visual Entailment and Visual Grounding capabilities of any current or prospective multimodal pretraining models. Extensive experiments demonstrate that RiVEG outperforms state-of-the-art methods on the existing GMNER dataset and achieves absolute leads of 10.65%, 6.21%, and 8.83% in all three subtasks.
翻訳日:2024-02-16 15:26:42 公開日:2024-02-15
# アドホックチームワークのためのシンメトリーブレーキング強化

Symmetry-Breaking Augmentations for Ad Hoc Teamwork ( http://arxiv.org/abs/2402.09984v1 )

ライセンス: Link先を確認
Ravi Hammond, Dustin Craggs, Mingyu Guo, Jakob Foerster, Ian Reid(参考訳) 多くのコラボレーティブな設定では、人工知能(AI)エージェントは未知または以前は観測されていなかった戦略を使用する新しいチームメイトに適応できなければならない。 人間には簡単なことも多いが、AIエージェントには難しい。 例えば、もしAIエージェントが、道の片側だけを運転する他の(トレーニングセット)と一緒に運転することを学ぶと、その振る舞いが単に左対称に沿って反転しているとしても、この体験を反対側のドライバーと調整するのに苦労するかもしれません。 これに対処するために、対称性破壊拡張 (sba) を導入し、対称性破壊操作を適用してチームメイトのトレーニング行動の多様性を高める。 強化されたチームメイトに対するベストレスポンスを学ぶことで、エージェントは幅広い行動規範に晒され、新しいチームメイトと一緒にデプロイする際のパフォーマンスが向上します。 実験的な2つの設定でこれを実証し,従来のアドホックチームワークによりカードゲーム「はなび」におけるアプローチが改善したことを示す。 また,与えられたポリシー群間の対称性依存性を推定するための一般的な指標を提案する。

In many collaborative settings, artificial intelligence (AI) agents must be able to adapt to new teammates that use unknown or previously unobserved strategies. While often simple for humans, this can be challenging for AI agents. For example, if an AI agent learns to drive alongside others (a training set) that only drive on one side of the road, it may struggle to adapt this experience to coordinate with drivers on the opposite side, even if their behaviours are simply flipped along the left-right symmetry. To address this we introduce symmetry-breaking augmentations (SBA), which increases diversity in the behaviour of training teammates by applying a symmetry-flipping operation. By learning a best-response to the augmented set of teammates, our agent is exposed to a wider range of behavioural conventions, improving performance when deployed with novel teammates. We demonstrate this experimentally in two settings, and show that our approach improves upon previous ad hoc teamwork results in the challenging card game Hanabi. We also propose a general metric for estimating symmetry-dependency amongst a given set of policies.
翻訳日:2024-02-16 15:26:13 公開日:2024-02-15
# 非エルミートトト極回路設計のための深層学習

Deep learning for the design of non-Hermitian topolectrical circuits ( http://arxiv.org/abs/2402.09978v1 )

ライセンス: Link先を確認
Xi Chen, Jinyang Sun, Xiumei Wang, Hengxuan Jiang, Dandan Zhu, and Xingping Zhou(参考訳) 非エルミート位相は、従来のバルク境界対応の分解や非エルミート位相エッジモードのようなエルミート位相と比較して、いくつかの顕著な特性を生み出すことができる。 本稿では,多層パーセプトロン(MLP)と,深層学習分野における畳み込みニューラルネットワーク(CNN)を用いたアルゴリズムを導入し,非エルミート・ハミルトニアンの固有値のゆらぎを予測する。 その後、周期回路の最小モジュールを1単位として、高次元回路データの特徴を構築する。 さらに、DenseNetアルゴリズムは高次元データ処理に適しているため、階層間の密接な接続を利用して非エルミートトポレクトロカルチャーン回路を設計する畳み込みニューラルネットワークの一種であるDense Convolutional Network(DenseNet)を用いる。 本研究では,訓練データに基づく非エルミート系の大域的トポロジー特性を捉えるための深層学習ネットワークの有効性を示す。

Non-Hermitian topological phases can produce some remarkable properties, compared with their Hermitian counterpart, such as the breakdown of conventional bulk-boundary correspondence and the non-Hermitian topological edge mode. Here, we introduce several algorithms with multi-layer perceptron (MLP), and convolutional neural network (CNN) in the field of deep learning, to predict the winding of eigenvalues non-Hermitian Hamiltonians. Subsequently, we use the smallest module of the periodic circuit as one unit to construct high-dimensional circuit data features. Further, we use the Dense Convolutional Network (DenseNet), a type of convolutional neural network that utilizes dense connections between layers to design a non-Hermitian topolectrical Chern circuit, as the DenseNet algorithm is more suitable for processing high-dimensional data. Our results demonstrate the effectiveness of the deep learning network in capturing the global topological characteristics of a non-Hermitian system based on training data.
翻訳日:2024-02-16 15:25:50 公開日:2024-02-15
# 言語モデル圧縮のための高速語彙転送

Fast Vocabulary Transfer for Language Model Compression ( http://arxiv.org/abs/2402.09977v1 )

ライセンス: Link先を確認
Leonidas Gee and Andrea Zugarini and Leonardo Rigutini and Paolo Torroni(参考訳) 現実世界のビジネスアプリケーションは、言語モデルのパフォーマンスとサイズの間のトレードオフを必要とする。 本稿では,語彙移動に依存する新しいモデル圧縮法を提案する。 本手法は,様々な垂直領域と下流タスクで評価する。 以上の結果から,語彙移動は他の圧縮手法と組み合わせて効果的に利用することができ,モデルサイズや推論時間を大幅に削減でき,性能に限界があることが示唆された。

Real-world business applications require a trade-off between language model performance and size. We propose a new method for model compression that relies on vocabulary transfer. We evaluate the method on various vertical domains and downstream tasks. Our results indicate that vocabulary transfer can be effectively used in combination with other compression techniques, yielding a significant reduction in model size and inference time while marginally compromising on performance.
翻訳日:2024-02-16 15:25:30 公開日:2024-02-15
# 未熟児網膜症における人工知能の現状と将来

Current and future roles of artificial intelligence in retinopathy of prematurity ( http://arxiv.org/abs/2402.09975v1 )

ライセンス: Link先を確認
Ali Jafarizadeh, Shadi Farabi Maleki, Parnia Pouya, Navid Sobhi, Mirsaeed Abdollahi, Siamak Pedrammehr, Chee Peng Lim, Houshyar Asadi, Roohallah Alizadehsani, Ru-San Tan, Sheikh Mohammad Shariful Islam, U. Rajendra Acharya(参考訳) 未熟児網膜症(英: retinopathy of prematurity, rop)は、未熟児の網膜血管の異常成長、網膜剥離、潜在的な失明を引き起こす重篤な疾患である。 半自動システムは過去に網膜血管の特徴を定量化することでROP関連と疾患の診断に用いられてきたが、従来の機械学習(ML)モデルは精度や過剰適合といった課題に直面している。 近年のディープラーニング(DL)、特に畳み込みニューラルネットワーク(CNN)は、ROPの検出と分類を大幅に改善している。 i-ROP 深層学習 (i-ROP-DL) システムもまた,高次疾患の検出を約束し,信頼性なROP 診断能を提供する。 本研究は、網膜イメージングと人工知能(AI)を用いたROP検出の現代的進歩と課題を包括的に検討し、この領域におけるさらなる研究を導く貴重な洞察を提供する。 この分野における89のオリジナル研究(総括的に検討された1487の研究のうち)に基づき、rop診断の伝統的な方法は主観性と手作業による分析に苦しめられ、臨床判断に一貫性がないと結論づけた。 AIは、ROP管理を改善するための大きな約束を持っています。 本稿では,rop検出,分類,診断,予後におけるaiの可能性について検討する。

Retinopathy of prematurity (ROP) is a severe condition affecting premature infants, leading to abnormal retinal blood vessel growth, retinal detachment, and potential blindness. While semi-automated systems have been used in the past to diagnose ROP-related plus disease by quantifying retinal vessel features, traditional machine learning (ML) models face challenges like accuracy and overfitting. Recent advancements in deep learning (DL), especially convolutional neural networks (CNNs), have significantly improved ROP detection and classification. The i-ROP deep learning (i-ROP-DL) system also shows promise in detecting plus disease, offering reliable ROP diagnosis potential. This research comprehensively examines the contemporary progress and challenges associated with using retinal imaging and artificial intelligence (AI) to detect ROP, offering valuable insights that can guide further investigation in this domain. Based on 89 original studies in this field (out of 1487 studies that were comprehensively reviewed), we concluded that traditional methods for ROP diagnosis suffer from subjectivity and manual analysis, leading to inconsistent clinical decisions. AI holds great promise for improving ROP management. This review explores AI's potential in ROP detection, classification, diagnosis, and prognosis.
翻訳日:2024-02-16 15:25:24 公開日:2024-02-15
# 相関トレースノルムに基づくシュミット数基準の強化

Enhanced Schmidt number criteria based on correlation trace norms ( http://arxiv.org/abs/2402.09972v1 )

ライセンス: Link先を確認
Armin Tavakoli, Simon Morelli(参考訳) シュミット数は、2部量子状態の真の絡み合い次元を表す。 任意の局所次元における密度行列のシュミット数に対する簡単な基準を導出する。 これらは量子測定のセナル族、特に対称的な情報完全測定と相互に偏りのない基底から得られる相関のトレースノルムに基づいている。 我々の基準は、よく知られた忠実な証人基準と計算可能なクロスノームまたは認識基準の両方よりも厳格である。

The Schmidt number represents the genuine entanglement dimension of a bipartite quantum state. We derive simple criteria for the Schmidt number of a density matrix in arbitrary local dimensions. They are based on the trace norm of correlations obtained from seminal families of quantum measurements, specifically symmetric informationally complete measurements and mutually unbiased bases. Our criteria are strictly stronger than both the well-known fidelity witness criterion and the computable cross-norms or realignment criterion.
翻訳日:2024-02-16 15:25:00 公開日:2024-02-15
# 拡散モデルの並列サンプリング高速化

Accelerating Parallel Sampling of Diffusion Models ( http://arxiv.org/abs/2402.09970v1 )

ライセンス: Link先を確認
Zhiwei Tang, Jiasheng Tang, Hao Luo, Fan Wang, Tsung-Hui Chang(参考訳) 拡散モデルは、画像生成のための最先端の生成モデルとして登場した。 しかしながら、拡散モデルからのサンプリングは通常、サンプリングプロセスの固有の自己回帰性のために時間を要する。 本研究では,自己回帰過程を並列化することにより拡散モデルのサンプリングを高速化する手法を提案する。 具体的には,不動点反復による三角非線形方程式の解法としてサンプリングプロセスを再構成する。 このイノベーティブな定式化によって,解決プロセスに必要なイテレーションステップをさらに削減するための,いくつかの体系的手法を探求する。 これらの手法を応用し,計算資源とメモリ資源を余分に活用し,サンプリング速度を向上できる汎用かつトレーニングフリーな並列サンプリングアルゴリズムparataaを提案する。 実験の結果,DDIMやDDPMなどの一般的な逐次サンプリングアルゴリズムが必要とする推論ステップを4~14倍に削減できることがわかった。 特に、広く使われているテキストと画像の拡散モデルであるStable Diffusionに100ステップDDIMのParaTAAを適用すると、7つの推論ステップでシーケンシャルサンプリングと同じ画像を生成できる。

Diffusion models have emerged as state-of-the-art generative models for image generation. However, sampling from diffusion models is usually time-consuming due to the inherent autoregressive nature of their sampling process. In this work, we propose a novel approach that accelerates the sampling of diffusion models by parallelizing the autoregressive process. Specifically, we reformulate the sampling process as solving a system of triangular nonlinear equations through fixed-point iteration. With this innovative formulation, we explore several systematic techniques to further reduce the iteration steps required by the solving process. Applying these techniques, we introduce ParaTAA, a universal and training-free parallel sampling algorithm that can leverage extra computational and memory resources to increase the sampling speed. Our experiments demonstrate that ParaTAA can decrease the inference steps required by common sequential sampling algorithms such as DDIM and DDPM by a factor of 4~14 times. Notably, when applying ParaTAA with 100 steps DDIM for Stable Diffusion, a widely-used text-to-image diffusion model, it can produce the same images as the sequential sampling in only 7 inference steps.
翻訳日:2024-02-16 15:24:52 公開日:2024-02-15
# ケーススタディ: 推論タスクにおけるモデル機能のテスト

Case Study: Testing Model Capabilities in Some Reasoning Tasks ( http://arxiv.org/abs/2402.09967v1 )

ライセンス: Link先を確認
Min Zhang, Sato Takumi, Jack Zhang, Jun Wang(参考訳) 大規模言語モデル(llm)は、パーソナライズされたコンテンツの生成と対話の促進に優れ、無数のアプリケーションに対する彼らの顕著な適性を示す。 しかしながら、推論能力と説明可能なアウトプットを提供する能力は、特に推論能力の文脈において、改善すべき領域のままである。 本研究では, LLMの推論能力について考察し, 複雑な推論シナリオにおけるそれらの効果を阻害する現在の課題と限界を明らかにする。

Large Language Models (LLMs) excel in generating personalized content and facilitating interactive dialogues, showcasing their remarkable aptitude for a myriad of applications. However, their capabilities in reasoning and providing explainable outputs, especially within the context of reasoning abilities, remain areas for improvement. In this study, we delve into the reasoning abilities of LLMs, highlighting the current challenges and limitations that hinder their effectiveness in complex reasoning scenarios.
翻訳日:2024-02-16 15:24:34 公開日:2024-02-15
# テキストのローカライゼーション:主題駆動テキスト対画像生成のためのマルチコンセプション画像の分解

Textual Localization: Decomposing Multi-concept Images for Subject-Driven Text-to-Image Generation ( http://arxiv.org/abs/2402.09966v1 )

ライセンス: Link先を確認
Junjie Shentu, Matthew Watson, Noura Al Moubayed(参考訳) 主題駆動のテキストから画像への拡散モデルは、いくつかのサンプル画像を使用して、事前学習データセットにない新しい概念にモデルを調整できるようにする。 しかし、主観的モデルは主にシングルコンセプトの入力画像に依存しており、マルチコンセプトの入力画像を扱う際にターゲット概念を特定する際の課題に直面している。 そこで本研究では,マルチコンセプト入力画像を扱うためのテキスト・ローカライズド・テキスト・ツー・イメージ・モデル(Texual Localization)を提案する。 提案手法では,複数の概念を分解するための新しいクロス・アテンション・ガイダンスを取り入れ,対象概念の視覚的表現とテキストプロンプトの識別子トークンとの明確な接続を確立する。 実験の結果,マルチコンセプタ入力画像における画像忠実性と画像テキストアライメントの点で,ベースラインモデルに比較し,比較可能であった。 Custom Diffusionと比較すると,CLIP-Iスコアは7.04%,8.13%,CLIP-Tスコアは2.22%,5.85%,マルチコンセプト生成では5.85%であった。 特に,提案手法は,既存モデルにない機能である生成画像における対象概念と整合するクロスアテンションマップを生成する。

Subject-driven text-to-image diffusion models empower users to tailor the model to new concepts absent in the pre-training dataset using a few sample images. However, prevalent subject-driven models primarily rely on single-concept input images, facing challenges in specifying the target concept when dealing with multi-concept input images. To this end, we introduce a textual localized text-to-image model (Texual Localization) to handle multi-concept input images. During fine-tuning, our method incorporates a novel cross-attention guidance to decompose multiple concepts, establishing distinct connections between the visual representation of the target concept and the identifier token in the text prompt. Experimental results reveal that our method outperforms or performs comparably to the baseline models in terms of image fidelity and image-text alignment on multi-concept input images. In comparison to Custom Diffusion, our method with hard guidance achieves CLIP-I scores that are 7.04%, 8.13% higher and CLIP-T scores that are 2.22%, 5.85% higher in single-concept and multi-concept generation, respectively. Notably, our method generates cross-attention maps consistent with the target concept in the generated images, a capability absent in existing models.
翻訳日:2024-02-16 15:24:26 公開日:2024-02-15
# なぜトランスフォーマーに敏感な機能が難しいのか?

Why are Sensitive Functions Hard for Transformers? ( http://arxiv.org/abs/2402.09963v1 )

ライセンス: Link先を確認
Michael Hahn, Mark Rofin(参考訳) 実証的研究は、PARITYのような単純な形式言語を計算することの難しさや、低次関数に対するバイアスなど、トランスフォーマーの学習可能性バイアスと制限の幅を特定している。 しかし、理論的な理解は限られており、既存の表現力理論は現実的な学習能力を過大に予測または過小に予測している。 入力文字列の多くの部分に敏感な出力を持つトランスは、パラメータ空間内の孤立した点に存在し、一般化において低感度のバイアスをもたらす。 本研究では, この理論が, 低感度・低度への一般化バイアス, PARITYにおける長さ一般化の難しさなど, 変圧器の学習能力とバイアスに関する幅広い経験的観察を統一することを示す。 これは、トランスフォーマーの帰納的バイアスを理解するには、原理的な表現性だけでなく、損失の風景も研究する必要があることを示している。

Empirical studies have identified a range of learnability biases and limitations of transformers, such as a persistent difficulty in learning to compute simple formal languages such as PARITY, and a bias towards low-degree functions. However, theoretical understanding remains limited, with existing expressiveness theory either overpredicting or underpredicting realistic learning abilities. We prove that, under the transformer architecture, the loss landscape is constrained by the input-space sensitivity: Transformers whose output is sensitive to many parts of the input string inhabit isolated points in parameter space, leading to a low-sensitivity bias in generalization. We show theoretically and empirically that this theory unifies a broad array of empirical observations about the learning abilities and biases of transformers, such as their generalization bias towards low sensitivity and low degree, and difficulty in length generalization for PARITY. This shows that understanding transformers' inductive biases requires studying not just their in-principle expressivity, but also their loss landscape.
翻訳日:2024-02-16 15:24:02 公開日:2024-02-15
# ViGEO:地球観測におけるビジョンGNNの評価

ViGEO: an Assessment of Vision GNNs in Earth Observation ( http://arxiv.org/abs/2402.09962v1 )

ライセンス: Link先を確認
Luca Colomba, Paolo Garza(参考訳) 衛星ミッションと地球観測(eo)システムは、環境モニタリングと壊滅的な事象のタイムリーな識別、自然資源と植生、水域、森林、建物などの人為的な資産の両方の長期監視のための基本的な資産を表している。 異なるEOミッションは、MODIS、Sentinel-1、Sentinel-2などの複数のスペクトル帯域に関する情報の収集を可能にする。 したがって、最近の機械学習、コンピュータビジョン、ラベル付きデータの可用性の進歩を踏まえ、研究者らは深層ニューラルネットワークによる土地利用監視システムとリモートセンシング画像分類の実現可能性と精度を実証した。 このようなシステムは、絶え間なく環境モニタリングを行うドメインの専門家や政府を助け、破滅的な事態(例えば遠隔地での森林火災)にタイムリーに介入することができる。 コンピュータビジョンの分野での最近の進歩にもかかわらず、多くの研究は畳み込みニューラルネットワーク(CNN)の解析を制限し、最近ではビジョントランスフォーマー(ViT)に制限している。 時系列や画像などの非グラフデータにおけるグラフニューラルネットワーク(GNN)の最近の成功を踏まえ、土地被覆分類のタスクに適用された最新のビジョンGNNアーキテクチャ(ViG)の性能について検討する。 実験結果から,ViGはマルチクラスおよびマルチラベルの分類文脈において,大規模ベンチマークでViTとResNetを上回り,最先端の性能を達成することが示された。

Satellite missions and Earth Observation (EO) systems represent fundamental assets for environmental monitoring and the timely identification of catastrophic events, long-term monitoring of both natural resources and human-made assets, such as vegetation, water bodies, forests as well as buildings. Different EO missions enables the collection of information on several spectral bandwidths, such as MODIS, Sentinel-1 and Sentinel-2. Thus, given the recent advances of machine learning, computer vision and the availability of labeled data, researchers demonstrated the feasibility and the precision of land-use monitoring systems and remote sensing image classification through the use of deep neural networks. Such systems may help domain experts and governments in constant environmental monitoring, enabling timely intervention in case of catastrophic events (e.g., forest wildfire in a remote area). Despite the recent advances in the field of computer vision, many works limit their analysis on Convolutional Neural Networks (CNNs) and, more recently, to vision transformers (ViTs). Given the recent successes of Graph Neural Networks (GNNs) on non-graph data, such as time-series and images, we investigate the performances of a recent Vision GNN architecture (ViG) applied to the task of land cover classification. The experimental results show that ViG achieves state-of-the-art performances in multiclass and multilabel classification contexts, surpassing both ViT and ResNet on large-scale benchmarks.
翻訳日:2024-02-16 15:23:43 公開日:2024-02-15
# 動的シフト拡張によるクラウドソーシングラストマイル配送におけるcourierスケジューリングの強化:深層強化学習アプローチ

Enhancing Courier Scheduling in Crowdsourced Last-Mile Delivery through Dynamic Shift Extensions: A Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2402.09961v1 )

ライセンス: Link先を確認
Zead Saleh, Ahmad Al Hanbali, and Ahmad Baubaid(参考訳) クラウドソーシングのデリバリプラットフォームは、クーリエと顧客の注文にマッチする複雑なスケジューリングの課題に直面している。 クラウドソーシング・クーリエの2つのタイプ,すなわちコミットと時々のクーリエを,それぞれ異なる補償方式で検討する。 クラウドソースの配信プラットフォームは通常、予測された需要に基づいて配送シフトをスケジュールする。 したがって、プラットフォームは計画期間の前にコミットされた宅配業者のオフラインスケジュールを作成できる。 しかし、需要の予測不可能のため、オフラインスケジュールをオンラインに調整する必要があるケースもある。 本研究では,コミット型クーリエのシフト拡張によるオフラインスケジュールの動的調整の問題に焦点をあてる。 この問題は逐次決定過程としてモデル化される。 その目的は、配送業者のシフト拡張と配送業者への要求の割り当てを決定することによって、プラットフォーム利益を最大化することにある。 このモデルを解くために,深層qネットワーク(dqn)学習手法を開発した。 このモデルと拡張を許可しないベースラインポリシーを比較すると、プラットフォームが報酬の面でシフト拡張を許可し、注文コストを削減し、要求をなくすことで得られるメリットが示される。 また,感度分析の結果,要求の到着率とともに非線形に総延長補償が増加し,時には搬送者の到着率と直線的に増加することがわかった。 補償感度では, 通常のシナリオでは, 平均シフト数が最も多く, その結果, 平均損失数が最も少なかった。 これらの発見は、DQNアルゴリズムによるそのような力学の学習の成功の証拠となる。

Crowdsourced delivery platforms face complex scheduling challenges to match couriers and customer orders. We consider two types of crowdsourced couriers, namely, committed and occasional couriers, each with different compensation schemes. Crowdsourced delivery platforms usually schedule committed courier shifts based on predicted demand. Therefore, platforms may devise an offline schedule for committed couriers before the planning period. However, due to the unpredictability of demand, there are instances where it becomes necessary to make online adjustments to the offline schedule. In this study, we focus on the problem of dynamically adjusting the offline schedule through shift extensions for committed couriers. This problem is modeled as a sequential decision process. The objective is to maximize platform profit by determining the shift extensions of couriers and the assignments of requests to couriers. To solve the model, a Deep Q-Network (DQN) learning approach is developed. Comparing this model with the baseline policy where no extensions are allowed demonstrates the benefits that platforms can gain from allowing shift extensions in terms of reward, reduced lost order costs, and lost requests. Additionally, sensitivity analysis showed that the total extension compensation increases in a nonlinear manner with the arrival rate of requests, and in a linear manner with the arrival rate of occasional couriers. On the compensation sensitivity, the results showed that the normal scenario exhibited the highest average number of shift extensions and, consequently, the fewest average number of lost requests. These findings serve as evidence of the successful learning of such dynamics by the DQN algorithm.
翻訳日:2024-02-16 15:23:15 公開日:2024-02-15
# スイスNYF:ブラックボックス設定用のツール接地型LLMエージェント

SwissNYF: Tool Grounded LLM Agents for Black Box Setting ( http://arxiv.org/abs/2402.10051v1 )

ライセンス: Link先を確認
Somnath Sendhil Kumar, Dhruv Jain, Eshaan Agarwal, Raunak Pandey(参考訳) 大規模言語モデル(llm)は関数呼び出しの能力の向上を実証しているが、これらの進歩は主に関数の応答へのアクセスに依存している。 この方法論はシンプルなAPIには実用的ですが、データベース削除APIのようなシステムに大きな影響を与える不可逆的なAPIでスケーラビリティの問題に直面しています。 同様に、各API呼び出しに広範囲の時間を要するプロセスと、自動アクションパイプラインのような前方計画を必要とするプロセスは、複雑な課題を提示します。 さらに、アルゴリズムはこれらの関数の特定の実装やシークレットに直接アクセスできないため、一般化されたアプローチが必要なシナリオがしばしば発生する。 従来のツールプランニング手法はこれらのケースでは不十分であり、ブラックボックス環境で運用する必要がある。 ツール操作のパフォーマンスとは異なり、LCMはプログラム合成などのブラックボックスタスクに優れる。 そこで我々は,LCMのプログラム合成機能を利用して,ブラックボックス設定でのツール使用率を向上し,実装前にソリューションが検証されることを保証する。 我々は,ブラックボックスツール計画のためのプログラム合成を利用した巧妙な手法であるtopgunを紹介する。 SwissNYFは、タスクの計画と検証のためのブラックボックスアルゴリズムを統合し、上記の課題に対処し、複雑なAPIインタラクションにおけるLLMの汎用性と有効性を向上する包括的スイートである。 swissnyfの公開コードはhttps://github.com/iclr-dummy-user/swissnyfで入手できる。

While Large Language Models (LLMs) have demonstrated enhanced capabilities in function-calling, these advancements primarily rely on accessing the functions' responses. This methodology is practical for simpler APIs but faces scalability issues with irreversible APIs that significantly impact the system, such as a database deletion API. Similarly, processes requiring extensive time for each API call and those necessitating forward planning, like automated action pipelines, present complex challenges. Furthermore, scenarios often arise where a generalized approach is needed because algorithms lack direct access to the specific implementations of these functions or secrets to use them. Traditional tool planning methods are inadequate in these cases, compelling the need to operate within black-box environments. Unlike their performance in tool manipulation, LLMs excel in black-box tasks, such as program synthesis. Therefore, we harness the program synthesis capabilities of LLMs to strategize tool usage in black-box settings, ensuring solutions are verified prior to implementation. We introduce TOPGUN, an ingeniously crafted approach leveraging program synthesis for black box tool planning. Accompanied by SwissNYF, a comprehensive suite that integrates black-box algorithms for planning and verification tasks, addressing the aforementioned challenges and enhancing the versatility and effectiveness of LLMs in complex API interactions. The public code for SwissNYF is available at https://github.com/iclr-dummy-user/SwissNYF.
翻訳日:2024-02-16 15:14:15 公開日:2024-02-15
# 統計的不均一性を考慮した網膜光コヒーレンストモグラフィ画像分類のためのフェデレート学習アルゴリズムの検討

Investigation of Federated Learning Algorithms for Retinal Optical Coherence Tomography Image Classification with Statistical Heterogeneity ( http://arxiv.org/abs/2402.10035v1 )

ライセンス: Link先を確認
Sanskar Amgain, Prashant Shrestha, Sophia Bano, Ignacio del Valle Torres, Michael Cunniffe, Victor Hernandez, Phil Beales, Binod Bhattarai(参考訳) 目的: 複数のクライアントで現実的なシナリオをシミュレートしたOCT画像分類器の訓練にフェデレートラーニングを適用し,クライアント内のデータに全カテゴリのサンプルが欠落している統計的異種データ分布について検討する。 方法: 集中化データに関連するプライバシー問題に対処し, OCT画像分類モデルを分散的に学習するためのFedAvgとFedProxの有効性を検討する。 IID と Non-IID 設定で複数のクライアントに公開可能な OCT データセットを分割し,各クライアントのサブセットをローカルにトレーニングした。 この2つのフェデレーション学習手法であるFedAvgとFedProxを評価した。 結果: このデータセットの実験では,IDD設定下では,両方のメソッドが中央データプールのトレーニングと同等に動作することが示唆された。 しかし、クライアントデータ間の統計的不均一性の増加に伴い、両方のアルゴリズムの性能は低下し、一方FedProxは不均一性の設定の増大においてFedAvgよりも一貫してパフォーマンスが向上する。 結論: 複数の医療機関間での個人データの利用における連合学習の有効性にもかかわらず, 多数のクライアントとラベルの異種分布は両アルゴリズムの性能を低下させた。 特に、FedProxは不均一性の増加に対してより堅牢であるようだ。

Purpose: We apply federated learning to train an OCT image classifier simulating a realistic scenario with multiple clients and statistical heterogeneous data distribution where data in the clients lack samples of some categories entirely. Methods: We investigate the effectiveness of FedAvg and FedProx to train an OCT image classification model in a decentralized fashion, addressing privacy concerns associated with centralizing data. We partitioned a publicly available OCT dataset across multiple clients under IID and Non-IID settings and conducted local training on the subsets for each client. We evaluated two federated learning methods, FedAvg and FedProx for these settings. Results: Our experiments on the dataset suggest that under IID settings, both methods perform on par with training on a central data pool. However, the performance of both algorithms declines as we increase the statistical heterogeneity across the client data, while FedProx consistently performs better than FedAvg in the increased heterogeneity settings. Conclusion: Despite the effectiveness of federated learning in the utilization of private data across multiple medical institutions, the large number of clients and heterogeneous distribution of labels deteriorate the performance of both algorithms. Notably, FedProx appears to be more robust to the increased heterogeneity.
翻訳日:2024-02-16 15:13:51 公開日:2024-02-15
# 大規模行動空間を持つ文脈帯域の拡散モデル

Diffusion Models Meet Contextual Bandits with Large Action Spaces ( http://arxiv.org/abs/2402.10028v1 )

ライセンス: Link先を確認
Imad Aouali(参考訳) 効率的な探索は、非情報探索が計算的および統計的非効率をもたらすような行動空間の大きいため、文脈的包帯において重要な課題である。 幸いなことに、アクションの報酬はしばしば相関しており、効率的に探索するために利用することができる。 本研究では,事前学習した拡散モデルを用いてそのような相関を捉え,拡散トンプソンサンプリング(dts)を設計する。 理論的基礎とアルゴリズム的基礎の両方がdTS用に開発されており、経験的評価も好適な性能を示している。

Efficient exploration is a key challenge in contextual bandits due to the large size of their action space, where uninformed exploration can result in computational and statistical inefficiencies. Fortunately, the rewards of actions are often correlated and this can be leveraged to explore them efficiently. In this work, we capture such correlations using pre-trained diffusion models; upon which we design diffusion Thompson sampling (dTS). Both theoretical and algorithmic foundations are developed for dTS, and empirical evaluation also shows its favorable performance.
翻訳日:2024-02-16 15:13:26 公開日:2024-02-15
# ハイパースペクトル画像分類のためのハイブリッドCNN Bi-LSTMニューラルネットワーク

Hybrid CNN Bi-LSTM neural network for Hyperspectral image classification ( http://arxiv.org/abs/2402.10026v1 )

ライセンス: Link先を確認
Alok Ranjan Sahoo and Pavan Chakraborty(参考訳) ハイパースペクトル画像は、分類が複雑であることから研究者の注目を集めている。 材料とHSI画像が提供するスペクトル情報との間には非線形な関係がある。 ディープラーニング手法は、従来の機械学習手法と比較して、この非線形性を学習する上で優位性を示している。 3次元CNNと2次元CNNの併用は空間的特徴とスペクトル的特徴の学習において大きな成功を収めている。 しかし、比較的多くのパラメータを使用する。 さらに、層間情報を学習することは効果的ではない。 そこで本研究では,3次元CNN,2次元CNN,Bi-LSTMを組み合わせたニューラルネットワークを提案する。 このモデルの性能は、パヴィア大学(PU)とサリナス・シーン(SA)のデータセットで検証されている。 結果は、最先端のディープラーニングベースのモデルと比較される。 このモデルは3つのデータセットでよりよく機能した。 99.83、99.98、100%の精度を達成でき、それぞれIP、PU、SAデータセットにおける最先端モデルのトレーニング可能なパラメータは30%に過ぎなかった。

Hyper spectral images have drawn the attention of the researchers for its complexity to classify. It has nonlinear relation between the materials and the spectral information provided by the HSI image. Deep learning methods have shown superiority in learning this nonlinearity in comparison to traditional machine learning methods. Use of 3-D CNN along with 2-D CNN have shown great success for learning spatial and spectral features. However, it uses comparatively large number of parameters. Moreover, it is not effective to learn inter layer information. Hence, this paper proposes a neural network combining 3-D CNN, 2-D CNN and Bi-LSTM. The performance of this model has been tested on Indian Pines(IP) University of Pavia(PU) and Salinas Scene(SA) data sets. The results are compared with the state of-the-art deep learning-based models. This model performed better in all three datasets. It could achieve 99.83, 99.98 and 100 percent accuracy using only 30 percent trainable parameters of the state-of-art model in IP, PU and SA datasets respectively.
翻訳日:2024-02-16 15:13:16 公開日:2024-02-15
# 教師なし単語翻訳のための自己学習

Self-Augmented In-Context Learning for Unsupervised Word Translation ( http://arxiv.org/abs/2402.10024v1 )

ライセンス: Link先を確認
Yaoyiran Li, Anna Korhonen, Ivan Vuli\'c(参考訳) 最近の研究によると、大規模言語モデル(LLM)は、強力な単語翻訳やバイリンガル語彙誘導(BLI)機能を数ショットで示すが、特に低リソース言語では、シード翻訳ペアが利用できないような教師なしシナリオにおいて、従来のマッピングベースのアプローチのパフォーマンスと一致しない。 この課題に LLM で対処するため,非教師付き BLI のための自己拡張型インコンテキスト学習 (SAIL) を提案する。ゼロショットプロンプトから始まる SAIL は LLM から高信頼語訳ペアを反復的に誘導し,ICL 方式で同じ LLM に再適用する。 提案手法は,広範囲の言語ペアにまたがる2つの確立されたBLIベンチマークにおいて,LLMのゼロショットプロンプトよりも大幅に向上した。 最先端のbli性能の達成に加えて,セイルに関する包括的解析を行い,その限界について考察する。

Recent work has shown that, while large language models (LLMs) demonstrate strong word translation or bilingual lexicon induction (BLI) capabilities in few-shot setups, they still cannot match the performance of 'traditional' mapping-based approaches in the unsupervised scenario where no seed translation pairs are available, especially for lower-resource languages. To address this challenge with LLMs, we propose self-augmented in-context learning (SAIL) for unsupervised BLI: starting from a zero-shot prompt, SAIL iteratively induces a set of high-confidence word translation pairs for in-context learning (ICL) from an LLM, which it then reapplies to the same LLM in the ICL fashion. Our method shows substantial gains over zero-shot prompting of LLMs on two established BLI benchmarks spanning a wide range of language pairs, also outperforming mapping-based baselines across the board. In addition to achieving state-of-the-art unsupervised BLI performance, we also conduct comprehensive analyses on SAIL and discuss its limitations.
翻訳日:2024-02-16 15:13:02 公開日:2024-02-15
# 命名実験の再現、拡張、分析

Reproducing, Extending, and Analyzing Naming Experiments ( http://arxiv.org/abs/2402.10022v1 )

ライセンス: Link先を確認
Rachel Alpern, Ido Lazer, Issar Tzachor, Hanit Hakim, Sapir Weissbuch, and Dror G. Feitelson(参考訳) 命名はソフトウェア開発において非常に重要であり、しばしばコードが何を意図しているのかを示す唯一の手段である。 開発者が同じオブジェクトに対して異なる開発者から与えられた名前の収集方法に関する最近の研究。 これにより、これらの名前の多様性と構造の研究と、名前の作り方に関するモデルの構築が可能になった。 この研究の様々な部分を3つの独立した実験で再現する。 重要なことは、正確な複製の試行よりも、方法論的なバリエーションを採用することである。 同じ結果が得られると、方法論に依存しないことを示すことによって、妥当性に対する信頼が高まる。 本研究の結果は,名称の多様性,2人の開発者が同じ名前を選ぶ確率の低さ,経験者の方が経験者よりもやや長い名前を使う傾向が示唆された。 名前の新しい分析を行い、それらに表される概念を普遍的(認識される)、代替(話題に関する異論的な見解を反映する)、または任意(この概念を全く含めるべきかについての異論を反映する)に分類し、名前の多様性を説明する。 この分類は命名決定にかかわる考察に関する新たな研究の方向性を可能にする。 また,本研究で提案するモデルを用いて命名の指導を行うことで,名称の明確化が促進されるのに対し,参加者に対してより長く詳細な名称の使用を求めるという単純なアプローチは不可能であることを示した。

Naming is very important in software development, as names are often the only vehicle of meaning about what the code is intended to do. A recent study on how developers choose names collected the names given by different developers for the same objects. This enabled a study of these names' diversity and structure, and the construction of a model of how names are created. We reproduce different parts of this study in three independent experiments. Importantly, we employ methodological variations rather than striving of an exact replication. When the same results are obtained this then boosts our confidence in their validity by demonstrating that they do not depend on the methodology. Our results indeed corroborate those of the original study in terms of the diversity of names, the low probability of two developers choosing the same name, and the finding that experienced developers tend to use slightly longer names than inexperienced students. We explain name diversity by performing a new analysis of the names, classifying the concepts represented in them as universal (agreed upon), alternative (reflecting divergent views on a topic), or optional (reflecting divergent opinions on whether to include this concept at all). This classification enables new research directions concerning the considerations involved in naming decisions. We also show that explicitly using the model proposed in the original study to guide naming leads to the creation of better names, whereas the simpler approach of just asking participants to use longer and more detailed names does not.
翻訳日:2024-02-16 15:12:39 公開日:2024-02-15
# SAWEC: センシング支援ワイヤレスエッジコンピューティング

SAWEC: Sensing-Assisted Wireless Edge Computing ( http://arxiv.org/abs/2402.10021v1 )

ライセンス: Link先を確認
Khandaker Foysal Haque, Francesca Meneghello, Md. Ebtidaul Karim and Francesco Restuccia(参考訳) 新たなモバイルバーチャルリアリティ(VR)システムは、ディープニューラルネットワーク(DNN)ベースのアルゴリズムの実行を通じて、超高解像度ビデオフレーム上で複雑なコンピュータビジョンタスクを継続的に実行する必要がある。 最先端のDNNはモバイルデバイスに過剰な計算能力を必要とするため、無線エッジコンピューティング(WEC)に基づく技術が近年提案されている。 しかし、既存のwec方式では、無線リンクを飽和させる可能性のある大量のビデオデータの伝送と処理が必要となる。 本稿では,この問題に対処する新しいセンサ支援無線エッジコンピューティング(SAWEC)パラダイムを提案する。 SAWECは物理環境に関する知識を活用して、サービス提供に関連するデータのみをエッジサーバに送信することで、エンドツーエンドのレイテンシと全体的な計算負担を削減する。 私たちの直感は、前のフレームに変化がないビデオフレームの一部の送信を避けることができるということです。 具体的には,無線センシング技術を用いて環境中の物体の位置を推定し,環境動態に関する知見を得る。 これにより、環境変化が検出されたフレームの一部のみを送信して処理する。 我々は、160MHzで動作するWi-Fi 6センシングシステムを搭載した10K 360$^{\circ}$カメラを用いて、SAWECを評価し、ローカライゼーションとトラッキングを行った。 室内の無響室と2人の被験者によるホールルームで6つの異なるセットアップで実験を行った。 実験の結果,sawcはチャネル占有率を93.81%,エンドツーエンドレイテンシを96.19%削減するとともに,最先端のwecアプローチでは46.98%向上した。 再現性のために、私たちはデータセットとコードリポジトリ全体を共有することを約束します。

Emerging mobile virtual reality (VR) systems will require to continuously perform complex computer vision tasks on ultra-high-resolution video frames through the execution of deep neural networks (DNNs)-based algorithms. Since state-of-the-art DNNs require computational power that is excessive for mobile devices, techniques based on wireless edge computing (WEC) have been recently proposed. However, existing WEC methods require the transmission and processing of a high amount of video data which may ultimately saturate the wireless link. In this paper, we propose a novel Sensing-Assisted Wireless Edge Computing (SAWEC) paradigm to address this issue. SAWEC leverages knowledge about the physical environment to reduce the end-to-end latency and overall computational burden by transmitting to the edge server only the relevant data for the delivery of the service. Our intuition is that the transmission of the portion of the video frames where there are no changes with respect to previous frames can be avoided. Specifically, we leverage wireless sensing techniques to estimate the location of objects in the environment and obtain insights about the environment dynamics. Hence, only the part of the frames where any environmental change is detected is transmitted and processed. We evaluated SAWEC by using a 10K 360$^{\circ}$ camera with a Wi-Fi 6 sensing system operating at 160 MHz and performing localization and tracking. We perform experiments in an anechoic chamber and a hall room with two human subjects in six different setups. Experimental results show that SAWEC reduces the channel occupation, and end-to-end latency by 93.81%, and 96.19% respectively while improving the instance segmentation performance by 46.98% with respect to state-of-the-art WEC approaches. For reproducibility purposes, we pledge to share our whole dataset and code repository.
翻訳日:2024-02-16 15:12:16 公開日:2024-02-15
# 最小記述長を用いたニューラルネットワーク形式言語学習における経験論的ギャップの橋渡し

Bridging the Empirical-Theoretical Gap in Neural Network Formal Language Learning Using Minimum Description Length ( http://arxiv.org/abs/2402.10013v1 )

ライセンス: Link先を確認
Nur Lan, Emmanuel Chemla, Roni Katzir(参考訳) ニューラルネットワークは多くのタスクに良い近似を与えるが、理論的な研究がそのような完璧な解を特定のアーキテクチャで表現できることを示したとしても、常に完全な一般化に到達できない。 形式的言語学習(formal language learning)のタスクを用いて、理論上正しい解法が、実際には一般的に使用される目的の最適ではないことを示す。一般的な知識に従って、単純な重み付けと優れた一般化(l1,l2)、あるいは他のメタヒューリスティック(早期停止、ドロップアウト)につながるような正規化技術であっても。 しかし、標準目標を最小記述長目標(mdl)に置き換えることで、正しい解が最適となる。

Neural networks offer good approximation to many tasks but consistently fail to reach perfect generalization, even when theoretical work shows that such perfect solutions can be expressed by certain architectures. Using the task of formal language learning, we focus on one simple formal language and show that the theoretically correct solution is in fact not an optimum of commonly used objectives -- even with regularization techniques that according to common wisdom should lead to simple weights and good generalization (L1, L2) or other meta-heuristics (early-stopping, dropout). However, replacing standard targets with the Minimum Description Length objective (MDL) results in the correct solution being an optimum.
翻訳日:2024-02-16 15:11:52 公開日:2024-02-15
# クリフォード群同変単純メッセージパッシングネットワーク

Clifford Group Equivariant Simplicial Message Passing Networks ( http://arxiv.org/abs/2402.10011v1 )

ライセンス: Link先を確認
Cong Liu, David Ruhe, Floor Eijkelboom, Patrick Forr\'e(参考訳) 本稿では,Simplicial Complex上でのE(n)-equivariantメッセージパッシング法であるClifford Group Equivariant Simplicial Message Passing Networksを紹介する。 提案手法は, クリフォード群同変層の表現率と単純メッセージパッシングを統合し, 通常のグラフメッセージパッシングよりもトポロジ的に複雑である。 クリフォード代数には、ベクトルから派生した幾何学的特徴(例えば、領域、体積)を表現する bivectors や trivectors のような高次対象が含まれる。 この知識を用いて, 頂点の幾何学的積を通して, 単純な特徴を表現する。 効率的な簡易なメッセージパッシングを実現するため、異なる次元にわたるメッセージネットワークのパラメータを共有する。 さらに、最終メッセージを異なる次元から受信したメッセージの集約に制限し、共有単純メッセージパッシングと呼ばれるものを生み出します。 実験結果から,本手法は様々な幾何学的タスクにおいて,同変および単純グラフニューラルネットよりも優れることが示された。

We introduce Clifford Group Equivariant Simplicial Message Passing Networks, a method for steerable E(n)-equivariant message passing on simplicial complexes. Our method integrates the expressivity of Clifford group-equivariant layers with simplicial message passing, which is topologically more intricate than regular graph message passing. Clifford algebras include higher-order objects such as bivectors and trivectors, which express geometric features (e.g., areas, volumes) derived from vectors. Using this knowledge, we represent simplex features through geometric products of their vertices. To achieve efficient simplicial message passing, we share the parameters of the message network across different dimensions. Additionally, we restrict the final message to an aggregation of the incoming messages from different dimensions, leading to what we term shared simplicial message passing. Experimental results show that our method is able to outperform both equivariant and simplicial graph neural networks on a variety of geometric tasks.
翻訳日:2024-02-16 15:11:41 公開日:2024-02-15
# モデルオブザーバインスパイア損失関数を用いた学習型ct再構成における信号検出性の向上

Enhancing signal detectability in learning-based CT reconstruction with a model observer inspired loss function ( http://arxiv.org/abs/2402.10010v1 )

ライセンス: Link先を確認
Megan Lantz, Emil Y. Sidky, Ingrid S. Reiser, Xiaochuan Pan, Gregory Ongie(参考訳) スパースビューctデータの再構成に使用されるディープニューラルネットワークは通常、トレーニング画像のセット上でピクセル単位の平均二乗誤差や類似損失関数を最小化することで訓練される。 しかし、このようなピクセル単位の損失で訓練されたネットワークは、スクリーニングや診断に欠かせない小型で低コントラストな特徴を消去しがちである。 この問題を解決するために、モデルオブザーバフレームワークに触発された新たなトレーニング損失を導入し、再構成における弱い信号の検出可能性を高める。 乳房ct合成画像の再構成に関するアプローチを評価し,提案する損失による信号検出性の向上を実証する。

Deep neural networks used for reconstructing sparse-view CT data are typically trained by minimizing a pixel-wise mean-squared error or similar loss function over a set of training images. However, networks trained with such pixel-wise losses are prone to wipe out small, low-contrast features that are critical for screening and diagnosis. To remedy this issue, we introduce a novel training loss inspired by the model observer framework to enhance the detectability of weak signals in the reconstructions. We evaluate our approach on the reconstruction of synthetic sparse-view breast CT data, and demonstrate an improvement in signal detectability with the proposed loss.
翻訳日:2024-02-16 15:11:24 公開日:2024-02-15
# ddpmインバージョンを用いたゼロショット教師なし音声編集

Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion ( http://arxiv.org/abs/2402.10009v1 )

ライセンス: Link先を確認
Hila Manor and Tomer Michaeli(参考訳) 大規模な事前学習モデルを用いて、ゼロショットで信号を編集する手法は、最近画像領域で急速に進歩している。 しかし、この波はまだオーディオ領域に届いていない。 本稿では,事前学習した拡散モデルにおけるDDPMインバージョンを用いた2つのゼロショット音声信号編集手法について検討する。 画像ドメインから採用された最初のものは、テキストベースの編集を可能にする。 2つ目は、意味的に意味のある編集方向を監督せずに発見するための新しいアプローチである。 音楽信号に適用すると、特定の楽器の参加の制御からメロディの即興演奏まで、音楽的に興味深い変更が多岐にわたることが分かる。 サンプルは例の https://github.io/AudioEditing/ で、コードは https://github.com/hilamanor/AudioEditing/ で見ることができる。

Editing signals using large pre-trained models, in a zero-shot manner, has recently seen rapid advancements in the image domain. However, this wave has yet to reach the audio domain. In this paper, we explore two zero-shot editing techniques for audio signals, which use DDPM inversion on pre-trained diffusion models. The first, adopted from the image domain, allows text-based editing. The second, is a novel approach for discovering semantically meaningful editing directions without supervision. When applied to music signals, this method exposes a range of musically interesting modifications, from controlling the participation of specific instruments to improvisations on the melody. Samples can be found on our examples page in https://hilamanor.github.io/AudioEditing/ and code can be found in https://github.com/hilamanor/AudioEditing/ .
翻訳日:2024-02-16 15:11:10 公開日:2024-02-15
# MM-Point:マルチビュー情報強化型マルチモーダルセルフスーパービジョン3Dポイントクラウド理解

MM-Point: Multi-View Information-Enhanced Multi-Modal Self-Supervised 3D Point Cloud Understanding ( http://arxiv.org/abs/2402.10002v1 )

ライセンス: Link先を確認
Hai-Tao Yu, Mofei Song(参考訳) 知覚において、複数の感覚情報は、2Dビューから3Dオブジェクトに視覚情報をマッピングするために統合され、3D環境での理解に有用である。 しかし、異なる角度からレンダリングされた単一の2Dビューでは、限られた部分情報しか提供できないため、多視点2D情報の豊かさと価値は、3Dオブジェクトに対して優れた自己監督信号を提供することができる。 本稿では,モーダル内およびモーダル間類似性に基づく自己教師付きポイントクラウド表現学習手法MM-Pointを提案する。 MM-Pointの中核は、3Dオブジェクトと複数の2Dビューを同時にやりとりするマルチモーダル相互作用にある。 コントラスト学習に基づく2次元多視点情報の一貫したクロスモーダル目的をより効果的に実現するために,マルチMLPとマルチレベル拡張戦略を提案する。 注意深く設計されたトランスフォーメーション戦略により、2次元のマルチビューにおけるマルチレベル不変性をさらに学習する。 MM-Pointは、様々な下流タスクにおける最先端(SOTA)パフォーマンスを示す。 例えば、合成データセットmodelnet40では92.4%、実世界のデータセットscanobjectnnでは87.8%という最高精度を達成している。 さらに,その効果を,マイナショット分類,3次元部分分割,3次元意味セグメンテーションなどのタスクで実証する。

In perception, multiple sensory information is integrated to map visual information from 2D views onto 3D objects, which is beneficial for understanding in 3D environments. But in terms of a single 2D view rendered from different angles, only limited partial information can be provided.The richness and value of Multi-view 2D information can provide superior self-supervised signals for 3D objects. In this paper, we propose a novel self-supervised point cloud representation learning method, MM-Point, which is driven by intra-modal and inter-modal similarity objectives. The core of MM-Point lies in the Multi-modal interaction and transmission between 3D objects and multiple 2D views at the same time. In order to more effectively simultaneously perform the consistent cross-modal objective of 2D multi-view information based on contrastive learning, we further propose Multi-MLP and Multi-level Augmentation strategies. Through carefully designed transformation strategies, we further learn Multi-level invariance in 2D Multi-views. MM-Point demonstrates state-of-the-art (SOTA) performance in various downstream tasks. For instance, it achieves a peak accuracy of 92.4% on the synthetic dataset ModelNet40, and a top accuracy of 87.8% on the real-world dataset ScanObjectNN, comparable to fully supervised methods. Additionally, we demonstrate its effectiveness in tasks such as few-shot classification, 3D part segmentation and 3D semantic segmentation.
翻訳日:2024-02-16 15:10:56 公開日:2024-02-15
# 分散学習におけるプライバシー侵害

Privacy Attacks in Decentralized Learning ( http://arxiv.org/abs/2402.10001v1 )

ライセンス: Link先を確認
Abdellah El Mrini, Edwige Cyffers and Aur\'elien Bellet(参考訳) 分散勾配降下(d-gd)は、ネットワークグラフ内の隣人とローカルモデルのアップデートを反復的に平均することで、データを共有することなく協調学習を行うことができる。 非neighborノード間の直接通信の欠如は、ユーザが他人のデータについて正確な情報を推測できないという信念に繋がる可能性がある。 そこで本研究では,d-gdに対する最初の攻撃として,ユーザ(あるいはユーザの集合)が近隣の他のユーザのプライベートデータを再構築可能にすることを提案する。 提案手法は,ゴシップ平均化プロトコルに対する再構築攻撃に基づいており,D-GDによる追加課題に対処するために拡張する。 実際のグラフやデータセットに対する攻撃の有効性を検証することで、単一の攻撃者や少数の攻撃者によって侵入されたユーザの数が驚くほど大きいことを示しています。 グラフトポロジー,攻撃者数,グラフ上の位置など,攻撃性能に影響する要因のいくつかを実験的に検討する。

Decentralized Gradient Descent (D-GD) allows a set of users to perform collaborative learning without sharing their data by iteratively averaging local model updates with their neighbors in a network graph. The absence of direct communication between non-neighbor nodes might lead to the belief that users cannot infer precise information about the data of others. In this work, we demonstrate the opposite, by proposing the first attack against D-GD that enables a user (or set of users) to reconstruct the private data of other users outside their immediate neighborhood. Our approach is based on a reconstruction attack against the gossip averaging protocol, which we then extend to handle the additional challenges raised by D-GD. We validate the effectiveness of our attack on real graphs and datasets, showing that the number of users compromised by a single or a handful of attackers is often surprisingly large. We empirically investigate some of the factors that affect the performance of the attack, namely the graph topology, the number of attackers, and their position in the graph.
翻訳日:2024-02-16 15:10:33 公開日:2024-02-15
# Lora Retriever: 野生の混合タスクに対する入力対応LORA検索と構成

LoraRetriever: Input-Aware LoRA Retrieval and Composition for Mixed Tasks in the Wild ( http://arxiv.org/abs/2402.09997v1 )

ライセンス: Link先を確認
Ziyu Zhao, Leilei Gan, Guoyin Wang, Wangchunshu Zhou, Hongxia Yang, Kun Kuang, Fei Wu(参考訳) Low-Rank Adaptation (LoRA)は,大規模言語モデル(LLM)を微調整する上で,効率的かつ効率的なソリューションを提供する。 LoRAのモジュール性とプラグ・アンド・プレイ性により、多様なドメイン固有のLoRAを統合することで、LLMの能力を高めることができる。 複数のLoRAを悪用する以前の研究は、特定の独立した下流タスクに焦点を当てるか、トレーニング中のLoRAの選択を修正する。 しかし、現実のシナリオでは、LLMは様々なタスクをカバーする多様なプロンプトを受け取り、候補であるLoRAのプールはしばしば動的に更新される。 このギャップを埋めるために、入力プロンプトに応じて複数のLoRAを適応的に検索して構成する検索テーマ構成フレームワークであるLoraRetrieverを提案する。 loraretrieverには3つの主要なコンポーネントが含まれている: まず、与えられた入力に関連するlorasの識別と検索、次に取得したlorasを効果的に統合するための定式化戦略、そして第三に、異種リクエストに対応する効率的なバッチ推論を開発する。 実験結果から,LoraRetrieverはベースラインを一貫して上回り,実用性と汎用性を強調した。

Low-Rank Adaptation (LoRA) provides an effective yet efficient solution for fine-tuning large language models (LLM). The modular and plug-and-play nature of LoRA enables the integration of diverse domain-specific LoRAs to enhance the capabilities of LLMs. Previous research on exploiting multiple LoRAs either focuses on specific isolated downstream tasks or fixes the selection of LoRAs during training. However, in real-world scenarios, LLMs receive diverse prompts covering different tasks, and the pool of candidate LoRAs is often dynamically updated. To bridge this gap, we propose LoraRetriever, a retrieve-then-compose framework that adaptively retrieves and composes multiple LoRAs according to the input prompts. LoraRetriever contains three main components: firstly, identifying and retrieving LoRAs relevant to the given input; secondly, formulating strategies for effectively integrating the retrieved LoRAs; and thirdly, developing efficient batch inference to accommodate heterogeneous requests. Experimental results indicate that LoraRetriever consistently outperforms the baselines, highlighting its practical effectiveness and versatility.
翻訳日:2024-02-16 15:10:15 公開日:2024-02-15
# ijtyper: 制約と統計に基づくメソッドの統合によるjavaの反復型推論フレームワーク

iJTyper: An Iterative Type Inference Framework for Java by Integrating Constraint- and Statistically-based Methods ( http://arxiv.org/abs/2402.09995v1 )

ライセンス: Link先を確認
Zhixiang Chen, Anji Li, Neng Zhang, Jianguo Chen, Yuan Huang, Zibin Zheng(参考訳) 不完全なコードスニペット(Q&Aフォーラムなど)でAPI要素の型を推測することは、コードスニペットを扱うのに必要な前向きなステップである。 既存の型推論メソッドは、主に制約ベースまたは統計ベースに分類できる。 前者はコード構文により高い要求を課し、しばしばコードスニペットの構文的制限のためにリコールの低さに悩まされる。 後者はトレーニングコーパスから学んだ統計的正規性に依存しており、コードスニペットの型制約を十分に活用していないため、精度が低下する可能性がある。 本稿では,制約および統計的手法の長所を統合することで,Javaの反復型推論フレームワークiJTyperを提案する。 コードスニペットのために、iJTyperはまず制約ベースのメソッドを適用し、推論されたAPI要素の型でコードコンテキストを拡張する。 その後、iJTyperは、拡張コードスニペットに統計ベースのメソッドを適用する。 予測されるAPI要素の候補型は、事前構築された知識ベースを減らして制約ベースの方法を改善するためにさらに使用される。 ijtyperは両方のメソッドを繰り返し実行し、終了条件が満たされるまでコードコンテキスト拡張と知識ベース削減を実行する。 最後に、両方の手法の結果を組み合わせて最終的な推論結果を得る。 iJTyperを2つのオープンソースデータセットで評価した。 その結果は 1) iJTyperは,両方のデータセットで97.31%,92.52%の平均的精度/リコールを達成する。 2)iJTyperは,2つの最先端ベースラインであるSnRとMLMTyperのリコールを,それぞれ少なくとも7.31%,27.44%改善する。 3)iJTyperは、一般的な言語モデルChatGPTの平均精度/リコールを、両方のデータセットで3.25%と0.51%改善する。

Inferring the types of API elements in incomplete code snippets (e.g., those on Q&A forums) is a prepositive step required to work with the code snippets. Existing type inference methods can be mainly categorized as constraint-based or statistically-based. The former imposes higher requirements on code syntax and often suffers from low recall due to the syntactic limitation of code snippets. The latter relies on the statistical regularities learned from a training corpus and does not take full advantage of the type constraints in code snippets, which may lead to low precision. In this paper, we propose an iterative type inference framework for Java, called iJTyper, by integrating the strengths of both constraint- and statistically-based methods. For a code snippet, iJTyper first applies a constraint-based method and augments the code context with the inferred types of API elements. iJTyper then applies a statistically-based method to the augmented code snippet. The predicted candidate types of API elements are further used to improve the constraint-based method by reducing its pre-built knowledge base. iJTyper iteratively executes both methods and performs code context augmentation and knowledge base reduction until a termination condition is satisfied. Finally, the final inference results are obtained by combining the results of both methods. We evaluated iJTyper on two open-source datasets. Results show that 1) iJTyper achieves high average precision/recall of 97.31% and 92.52% on both datasets; 2) iJTyper significantly improves the recall of two state-of-the-art baselines, SnR and MLMTyper, by at least 7.31% and 27.44%, respectively; and 3) iJTyper improves the average precision/recall of the popular language model, ChatGPT, by 3.25% and 0.51% on both datasets.
翻訳日:2024-02-16 15:09:53 公開日:2024-02-15
# 独立サンプリングを用いた異種無線ネットワークにおける適応フェデレーション学習

Adaptive Federated Learning in Heterogeneous Wireless Networks with Independent Sampling ( http://arxiv.org/abs/2402.10097v1 )

ライセンス: Link先を確認
Jiaxiang Geng, Yanzhao Hou, Xiaofeng Tao, Juncheng Wang and Bing Luo(参考訳) フェデレーション学習(fl)アルゴリズムは通常、ストラグラー問題に対処するためにクライアントのランダムサブセットをサンプリングし、通信効率を向上させる。 最近の研究では、様々なクライアントサンプリング手法が提案されているが、実際の異種無線ネットワークと一致しない、ジョイントシステムとデータ均一性設計に制限がある。 本研究では,FLのウォールクロック学習時間を最小限に抑えるために,データ不均一性とシステム不均一性を考慮した新たなクライアントサンプリング手法を提案する。 まず,非凸損失関数に対して独立なクライアントサンプリングを施した新しい収束境界を導出し,適応帯域割り当て方式を提案する。 さらに,データとシステムの不均一性を考慮しつつ,flの壁時計時間を最小限に抑えるために,収束ラウンドの上界と期待毎のトレーニング時間に基づく効率的な独立クライアントサンプリングアルゴリズムを提案する。 実世界のプロトタイプを用いた実用的な無線ネットワーク環境下での実験結果から,提案手法は様々なトレーニングモデルやデータセットにおいて,現在最高のサンプリング方式よりも大幅に優れていた。

Federated Learning (FL) algorithms commonly sample a random subset of clients to address the straggler issue and improve communication efficiency. While recent works have proposed various client sampling methods, they have limitations in joint system and data heterogeneity design, which may not align with practical heterogeneous wireless networks. In this work, we advocate a new independent client sampling strategy to minimize the wall-clock training time of FL, while considering data heterogeneity and system heterogeneity in both communication and computation. We first derive a new convergence bound for non-convex loss functions with independent client sampling and then propose an adaptive bandwidth allocation scheme. Furthermore, we propose an efficient independent client sampling algorithm based on the upper bounds on the convergence rounds and the expected per-round training time, to minimize the wall-clock time of FL, while considering both the data and system heterogeneity. Experimental results under practical wireless network settings with real-world prototype demonstrate that the proposed independent sampling scheme substantially outperforms the current best sampling schemes under various training models and datasets.
翻訳日:2024-02-16 15:02:27 公開日:2024-02-15
# 授業増分学習における因果効果のバランス

Balancing the Causal Effects in Class-Incremental Learning ( http://arxiv.org/abs/2402.10063v1 )

ライセンス: Link先を確認
Junhao Zheng, Ruiyan Wang, Chongzhi Zhang, Huawen Feng, Qianli Ma(参考訳) CIL(Class-Incremental Learning)は、汎用人工知能を実現するための実践的で困難な問題である。 最近、PTM(Pre-Trained Models)は、視覚的および自然言語処理タスクの両方にブレークスルーをもたらした。 近年の研究では、PTMが逐次学習できる可能性を示しているが、多くの研究が、PTMの破滅的な忘れを緩和する必要性を示している。 パイロットスタディとCILの因果解析により、新しいデータと古いデータの間の不均衡な因果関係にあることが明らかとなった。 具体的には、新しいデータはモデルに新しいクラスへの適応を奨励し、古いクラスへの適応を妨げる。 同様に、古いデータはモデルの古いクラスへの適応を奨励し、新しいクラスの適応を妨げる。 言い換えれば、新しいクラスと古いクラスの間の適応プロセスは因果的な観点から相反する。 この問題を解決するために,cilの因果効果(bace)のバランスをとることを提案する。 具体的には、新しいデータと古いデータの両方から新しいデータとクラスの予測への因果経路を構築するための2つの目的を提案する。 このように、モデルは、新しいデータと古いデータの両方から因果効果を持つすべてのクラスに適応することが奨励され、因果不均衡問題を緩和する。 連続的な画像分類,連続的なテキスト分類,連続的な名前付きエンティティ認識に関する広範な実験を行う。 実証的な結果から、BaCEはさまざまなタスクや設定で一連のCILメソッドよりも優れています。

Class-Incremental Learning (CIL) is a practical and challenging problem for achieving general artificial intelligence. Recently, Pre-Trained Models (PTMs) have led to breakthroughs in both visual and natural language processing tasks. Despite recent studies showing PTMs' potential ability to learn sequentially, a plethora of work indicates the necessity of alleviating the catastrophic forgetting of PTMs. Through a pilot study and a causal analysis of CIL, we reveal that the crux lies in the imbalanced causal effects between new and old data. Specifically, the new data encourage models to adapt to new classes while hindering the adaptation of old classes. Similarly, the old data encourages models to adapt to old classes while hindering the adaptation of new classes. In other words, the adaptation process between new and old classes conflicts from the causal perspective. To alleviate this problem, we propose Balancing the Causal Effects (BaCE) in CIL. Concretely, BaCE proposes two objectives for building causal paths from both new and old data to the prediction of new and classes, respectively. In this way, the model is encouraged to adapt to all classes with causal effects from both new and old data and thus alleviates the causal imbalance problem. We conduct extensive experiments on continual image classification, continual text classification, and continual named entity recognition. Empirical results show that BaCE outperforms a series of CIL methods on different tasks and settings.
翻訳日:2024-02-16 15:02:06 公開日:2024-02-15
# X-maps: イベントベースの構造化光システムのための直接深度検索

X-maps: Direct Depth Lookup for Event-based Structured Light Systems ( http://arxiv.org/abs/2402.10061v1 )

ライセンス: Link先を確認
Wieland Morgenstern, Niklas Gard, Simon Baumann, Anna Hilsmann, Peter Eisert(参考訳) 本稿では,イベントカメラを用いた空間拡張現実感(SAR)アプリケーションに対する直接深度推定手法を提案する。 これらのダイナミックビジョンセンサーは、レーザープロジェクタと組み合わせて、構造化光による深さ推定に最適である。 私たちの重要な貢献は、プロジェクタータイムマップを整列x-mapに変換し、入ってくるイベントに対するx軸対応をキャプチャし、追加の検索なしで直接的不一致の検索を可能にすることです。 従来の実装と比較して、これは深度推定を著しく単純化し、より効率的にし、精度はタイムマップベースのプロセスと似ている。 さらに, 安価なレーザプロジェクタの非線形時間挙動を簡易な時間地図校正により補正し, 性能の向上と深さ推定精度の向上を実現した。 深さ推定は2つのルックアップのみで実行されるため、入ってくるイベントに対してほぼ瞬時に(Pythonの実装で1フレームあたり3ミリ秒未満)実行できる。 これによってリアルタイムの対話性と応答性が実現し、低レイテンシ、高いフレームレート、直接的なフィードバックが不可欠であるSARエクスペリエンスに特に適しています。 我々は,x-mapsに変換されたデータに得られた貴重な知見を示し,アートタイムマップに基づく結果に対する不一致推定から奥行きを評価する。 追加の結果とコードは、プロジェクトのページ(https://fraunhoferhhi.github.io/X-maps/)で公開されています。

We present a new approach to direct depth estimation for Spatial Augmented Reality (SAR) applications using event cameras. These dynamic vision sensors are a great fit to be paired with laser projectors for depth estimation in a structured light approach. Our key contributions involve a conversion of the projector time map into a rectified X-map, capturing x-axis correspondences for incoming events and enabling direct disparity lookup without any additional search. Compared to previous implementations, this significantly simplifies depth estimation, making it more efficient, while the accuracy is similar to the time map-based process. Moreover, we compensate non-linear temporal behavior of cheap laser projectors by a simple time map calibration, resulting in improved performance and increased depth estimation accuracy. Since depth estimation is executed by two lookups only, it can be executed almost instantly (less than 3 ms per frame with a Python implementation) for incoming events. This allows for real-time interactivity and responsiveness, which makes our approach especially suitable for SAR experiences where low latency, high frame rates and direct feedback are crucial. We present valuable insights gained into data transformed into X-maps and evaluate our depth from disparity estimation against the state of the art time map-based results. Additional results and code are available on our project page: https://fraunhoferhhi.github.io/X-maps/
翻訳日:2024-02-16 15:01:44 公開日:2024-02-15
# 数独問題に対するQrispの量子バックトラッキング

Quantum Backtracking in Qrisp Applied to Sudoku Problems ( http://arxiv.org/abs/2402.10060v1 )

ライセンス: Link先を確認
Raphael Seidel, Ren\'e Zander, Matic Petri\v{c}, Niklas Steinmann, David Q. Liu, Nikolay Tcholtchev, Manfred Hauswirth(参考訳) アシュリー・モンタナロによって提案された量子バックトラックアルゴリズムは、古典最適化アルゴリズムの大規模なクラスに対して量子スピードアップを提供するため、かなりの関心を集めている。 Barren-Plateaus に苦しめられず、任意の角度ゲートの限られた数しか必要としないため、フォールトトレラント時代にうまく移行する。 その可能性にもかかわらず、アルゴリズムは、おそらくその抽象的な定式化のために、実装の努力が限られている。 本稿では,任意のバックトラックインスタンスに対する量子ステップ演算子の実装に関する詳細な指導を行う。 深さ n のバイナリバックトラッキングツリーの単一の制御ディフューザに対して、実装には 6n+14$ cx ゲートしか必要としない。 我々は,量子バックトラッキングのためのインタフェースを用いて,崇徳問題に対するacceptとreject oracleの構築過程を詳述する。 提示されたコードは高レベルの量子プログラミング言語であるQrispを使って書かれており、現在のほとんどの物理バックエンドやシミュレータ上で実行可能である。 その後,シミュレータを用いた実験を行い,最大9個の空フィールドを用いた4x4 sudokuインスタンスの解法を示す。 これは、我々の知る限りでは、この一般化をコンパイル可能な実装の最初の例であり、量子ソフトウェア工学において重要かつエキサイティングなステップである。

The quantum backtracking algorithm proposed by Ashley Montanaro raised considerable interest, as it provides a quantum speed-up for a large class of classical optimization algorithms. It does not suffer from Barren-Plateaus and transfers well into the fault-tolerant era, as it requires only a limited number of arbitrary angle gates. Despite its potential, the algorithm has seen limited implementation efforts, presumably due to its abstract formulation. In this work, we provide a detailed instruction on implementing the quantum step operator for arbitrary backtracking instances. For a single controlled diffuser of a binary backtracking tree with depth n, our implementation requires only $6n+14$ CX gates. We detail the process of constructing accept and reject oracles for Sudoku problems using our interface to quantum backtracking. The presented code is written using Qrisp, a high-level quantum programming language, making it executable on most current physical backends and simulators. Subsequently, we perform several simulator based experiments and demonstrate solving 4x4 Sudoku instances with up to 9 empty fields. This is, to the best of our knowledge, the first instance of a compilable implementation of this generality, marking a significant and exciting step forward in quantum software engineering.
翻訳日:2024-02-16 15:01:19 公開日:2024-02-15
# 機械学習による大規模言語モデル構築に向けて

Towards Safer Large Language Models through Machine Unlearning ( http://arxiv.org/abs/2402.10058v1 )

ライセンス: Link先を確認
Zheyuan Liu, Guangyao Dou, Zhaoxuan Tan, Yijun Tian, Meng Jiang(参考訳) LLM(Large Language Models)の急速な進歩は、その膨大な事前学習知識と例外的な一般化性によって、様々な領域にまたがる大きな可能性を実証している。 しかし、LSMは問題のあるプロンプトに直面すると有害なコンテンツを生成するという課題に遭遇することが多い。 この問題に対処するため、既存の研究はLSMが有害な出力を発生させないために勾配上昇に基づくアプローチを導入しようとした。 これらの手法は有効であるが、通常のプロンプトに対応する際にしばしばモデルユーティリティに影響を及ぼす。 このギャップに対処するために、我々は、通常のプロンプトで実用性を維持しながら有害な知識を排除し、LLMのための新しい非学習フレームワークである選択的知識否定学習(SKU)を導入する。 具体的には、SKUは有害な知識獲得段階と知識否定段階の2段階からなる。 第1段階は、モデル内で有害な知識を特定し、取得することを目的としているが、第2段階は、この知識を取り除こうとするものである。 SKUはモデルパラメータの有害な知識を選択的に分離し除去し、モデルの性能が正常なプロンプトに対して堅牢であることを保証する。 各種LLMアーキテクチャを用いて実施した実験により,有害情報除去と有効性維持のバランス点をSKUが同定できることが確認された。

The rapid advancement of Large Language Models (LLMs) has demonstrated their vast potential across various domains, attributed to their extensive pretraining knowledge and exceptional generalizability. However, LLMs often encounter challenges in generating harmful content when faced with problematic prompts. To address this problem, existing work attempted to implement a gradient ascent based approach to prevent LLMs from producing harmful output. While these methods can be effective, they frequently impact the model utility in responding to normal prompts. To address this gap, we introduce Selective Knowledge negation Unlearning (SKU), a novel unlearning framework for LLMs, designed to eliminate harmful knowledge while preserving utility on normal prompts. Specifically, SKU is consisted of two stages: harmful knowledge acquisition stage and knowledge negation stage. The first stage aims to identify and acquire harmful knowledge within the model, whereas the second is dedicated to remove this knowledge. SKU selectively isolates and removes harmful knowledge in model parameters, ensuring the model's performance remains robust on normal prompts. Our experiments conducted across various LLM architectures demonstrate that SKU identifies a good balance point between removing harmful information and preserving utility.
翻訳日:2024-02-16 15:00:57 公開日:2024-02-15
# インスタンスセグメンテーションニューラルネットワークによるヒト網膜画像におけるロバストな半自動血管追跡

Robust semi-automatic vessel tracing in the human retinal image by an instance segmentation neural network ( http://arxiv.org/abs/2402.10055v1 )

ライセンス: Link先を確認
Siyi Chen, Amir H. Kashani, Ji Yi(参考訳) 血管系の形態と階層は、代謝を支える灌流に必須である。 最もエネルギーを消費する臓器の一つであるヒト網膜では、網膜循環は、眼神経頭部(onh)に出現し、再結合する複雑な血管によって内網膜全体を栄養する。 したがって、ONHから血管樹への血管枝の追跡は、血管階層を示し、詳細な形態学的定量化を可能にするが、それでも困難な課題である。 本稿では,実例分割ニューラルネットワーク(InSegNN)を用いて,人間の眼底画像に頑健な半自動血管追跡アルゴリズムを提案する。 セマンティックセグメンテーションとは別として、insegnnは個別に異なる維管束木を分離しラベル付けするので、各木の分岐を追跡することができる。 我々は,時間学習,空間多重サンプリング,動的確率マップを用いて,頑健さと精度を向上させる3つの戦略を構築した。 文献と比較すると83%の特異性を示し,SBD(Symmetric Best Dice)が50%改善し,ベースラインU-netが50%向上した。 底面画像から個々の血管木を抽出し,同時に血管階層情報を保持することを実証した。 InSegNNは、網膜疾患に関連する血管形態のその後の形態学的解析の道を開く。

The morphology and hierarchy of the vascular systems are essential for perfusion in supporting metabolism. In human retina, one of the most energy-demanding organs, retinal circulation nourishes the entire inner retina by an intricate vasculature emerging and remerging at the optic nerve head (ONH). Thus, tracing the vascular branching from ONH through the vascular tree can illustrate vascular hierarchy and allow detailed morphological quantification, and yet remains a challenging task. Here, we presented a novel approach for a robust semi-automatic vessel tracing algorithm on human fundus images by an instance segmentation neural network (InSegNN). Distinct from semantic segmentation, InSegNN separates and labels different vascular trees individually and therefore enable tracing each tree throughout its branching. We have built-in three strategies to improve robustness and accuracy with temporal learning, spatial multi-sampling, and dynamic probability map. We achieved 83% specificity, and 50% improvement in Symmetric Best Dice (SBD) compared to literature, and outperformed baseline U-net. We have demonstrated tracing individual vessel trees from fundus images, and simultaneously retain the vessel hierarchy information. InSegNN paves a way for any subsequent morphological analysis of vascular morphology in relation to retinal diseases.
翻訳日:2024-02-16 15:00:34 公開日:2024-02-15
# 自己蒸留と熟考による大規模言語モデルの不記憶化

Unmemorization in Large Language Models via Self-Distillation and Deliberate Imagination ( http://arxiv.org/abs/2402.10052v1 )

ライセンス: Link先を確認
Yijiang River Dong, Hongzhou Lin, Mikhail Belkin, Ramon Huerta, Ivan Vuli\'c(参考訳) 多くのタスクで印象的な生成能力を示す一方で、大きな言語モデル(llm)は依然として、プライバシー侵害や機密データへの不必要な露出という重大な問題に苦しんでいる。 強力な世代と自然言語理解(NLU)能力を維持しながら、どのようにしてLLMの望ましくない振る舞いを防ぐべきか? 本研究では,LLMアンラーニングの文脈において,意図的な想像力という新しいアプローチを導入する。 記憶されたデータを忘れる代わりに、私たちは自己蒸留フレームワークを採用し、LCMに代替シナリオを意図的に想像させるように誘導します。 幅広い実験で示されたように、提案手法はターゲットテキストを効果的に解き放つだけでなく、オープンな生成タスクやNLUタスクでもLLMの能力を保っている。 提案手法は,様々なモデルやサイズにまたがって有効であり,パラメータ効率の良い微調整により,LLMアプリケーションにおけるプライベート・センシティブなデータによる課題に対処する新たな経路を提供する。

While displaying impressive generation capabilities across many tasks, Large Language Models (LLMs) still struggle with crucial issues of privacy violation and unwanted exposure of sensitive data. This raises an essential question: how should we prevent such undesired behavior of LLMs while maintaining their strong generation and natural language understanding (NLU) capabilities? In this work, we introduce a novel approach termed deliberate imagination in the context of LLM unlearning. Instead of trying to forget memorized data, we employ a self-distillation framework, guiding LLMs to deliberately imagine alternative scenarios. As demonstrated in a wide range of experiments, the proposed method not only effectively unlearns targeted text but also preserves the LLMs' capabilities in open-ended generation tasks as well as in NLU tasks. Our results demonstrate the usefulness of this approach across different models and sizes, and also with parameter-efficient fine-tuning, offering a novel pathway to addressing the challenges with private and sensitive data in LLM applications.
翻訳日:2024-02-16 15:00:12 公開日:2024-02-15
# ウェイクジェスチャを用いた日常生活活動時の偽活動除去のためのオンデマンド筋電制御

On-Demand Myoelectric Control Using Wake Gestures to Eliminate False Activations During Activities of Daily Living ( http://arxiv.org/abs/2402.10050v1 )

ライセンス: Link先を確認
Ethan Eddy, Evan Campbell, Scott Bateman, and Erik Scheme(参考訳) 近年、筋電制御はフレキシブルハンドフリーな入力モダリティとしての研究の焦点となっているが、現在の制御手法は現実の環境では不注意な偽のアクティベーションを起こす傾向にある。 本研究では,新しい筋電制御パラダイムであるオンデマンド筋電制御(on-demand myoelectric control,on-demandmyoelectric control)を提案し,入力ジェスチャとして誤解釈される非関連筋運動の数を減らすための評価を行った。 ウェイクジェスチャの概念を活用することで、ユーザーは専用のコントロールモードと睡眠モードを切り替えることができ、日常生活(ADL)の活動中の不注意なアクティベーションを効果的に排除できる。 ウェイクジェスチャの実現性は、様々な難易度を持つ2つのオンラインユビキタスemg制御タスク(アラームの解除とロボットの制御)を通じて実証された。 提案した制御方式は,ADL中のほぼすべての非標的筋インプット(>99.9%)を適切に無視し,意図的な起床動作誘発時のモードスイッチングに十分な感度を維持した。 これらの結果は、広範囲のアプリケーションに対してユビキタスな筋電制御に基づくオンデマンド入力を実現するための重要なステップとして、ウェイクジェスチャーの可能性を強調している。

While myoelectric control has recently become a focus of increased research as a possible flexible hands-free input modality, current control approaches are prone to inadvertent false activations in real-world conditions. In this work, a novel myoelectric control paradigm -- on-demand myoelectric control -- is proposed, designed, and evaluated, to reduce the number of unrelated muscle movements that are incorrectly interpreted as input gestures . By leveraging the concept of wake gestures, users were able to switch between a dedicated control mode and a sleep mode, effectively eliminating inadvertent activations during activities of daily living (ADLs). The feasibility of wake gestures was demonstrated in this work through two online ubiquitous EMG control tasks with varying difficulty levels; dismissing an alarm and controlling a robot. The proposed control scheme was able to appropriately ignore almost all non-targeted muscular inputs during ADLs (>99.9%) while maintaining sufficient sensitivity for reliable mode switching during intentional wake gesture elicitation. These results highlight the potential of wake gestures as a critical step towards enabling ubiquitous myoelectric control-based on-demand input for a wide range of applications.
翻訳日:2024-02-16 14:59:55 公開日:2024-02-15
# ECEはどんな欠陥があるのか? Logit Smoothingによる解析

How Flawed is ECE? An Analysis via Logit Smoothing ( http://arxiv.org/abs/2402.10046v1 )

ライセンス: Link先を確認
Muthu Chidambaram, Holden Lee, Colin McSwiggen, Semon Rezchikov(参考訳) 形式的には、モデルがその予測が正しければ、予測の信頼性に一致する確率で校正される。 キャリブレーション測定の文献で最も一般的な方法は、期待キャリブレーション誤差(ECE)である。 しかし、最近の研究は、予測器の空間において不連続であるという事実など、ECEの欠点を指摘した。 この作業では、これらの問題はどの程度根本的であり、既存の結果にどのような影響があるのか? この目的に向けて、ポーランド空間上の一般的な確率測度に関して、ECEの不連続性を完全に特徴づける。 次に、これらの不連続性の性質を用いて、ロジット・スムースドECE(LS-ECE)と呼ばれる、新しい連続的、容易に推定される誤校正指標を動機付ける。 予め訓練した画像分類モデルのECEとLS-ECEを比較することで、ECEを結合したECEがLS-ECEを密に追跡する実験を行い、ECEの理論的病理が実際に回避可能であることを示す。

Informally, a model is calibrated if its predictions are correct with a probability that matches the confidence of the prediction. By far the most common method in the literature for measuring calibration is the expected calibration error (ECE). Recent work, however, has pointed out drawbacks of ECE, such as the fact that it is discontinuous in the space of predictors. In this work, we ask: how fundamental are these issues, and what are their impacts on existing results? Towards this end, we completely characterize the discontinuities of ECE with respect to general probability measures on Polish spaces. We then use the nature of these discontinuities to motivate a novel continuous, easily estimated miscalibration metric, which we term Logit-Smoothed ECE (LS-ECE). By comparing the ECE and LS-ECE of pre-trained image classification models, we show in initial experiments that binned ECE closely tracks LS-ECE, indicating that the theoretical pathologies of ECE may be avoidable in practice.
翻訳日:2024-02-16 14:59:28 公開日:2024-02-15
# 機械学習回帰タスクの平均キャリブレーションを検証するには?

How to validate average calibration for machine learning regression tasks ? ( http://arxiv.org/abs/2402.10043v1 )

ライセンス: Link先を確認
Pascal Pernot(参考訳) 機械学習回帰タスクの不確実性の平均キャリブレーションは、2つの方法でテストできる。 1つの方法は、キャリブレーション誤差(CE)を平均絶対誤差(MSE)と平均分散(MV)または平均二乗不確実性(MV)の差として推定することである。 別の方法は、平均二乗zスコアまたはスケールドエラー(ZMS)を 1 と比較することである。 どちらのアプローチも、最近の機械学習の不確実性定量化文学のデータセットの集合に示されているように、異なる結論につながる可能性がある。 ここでは、CEは不確実性の分布、特に外部の不確実性の存在に非常に敏感であり、校正試験には確実に使用できないことが示されている。 対照的に、ZMS統計はこの感度問題を示しておらず、この文脈でもっとも信頼できるアプローチを提供する。 条件キャリブレーションの妥当性について考察した。

Average calibration of the uncertainties of machine learning regression tasks can be tested in two ways. One way is to estimate the calibration error (CE) as the difference between the mean absolute error (MSE) and the mean variance (MV) or mean squared uncertainty. The alternative is to compare the mean squared z-scores or scaled errors (ZMS) to 1. Both approaches might lead to different conclusion, as illustrated on an ensemble of datasets from the recent machine learning uncertainty quantification literature. It is shown here that the CE is very sensitive to the distribution of uncertainties, and notably to the presence of outlying uncertainties, and that it cannot be used reliably for calibration testing. By contrast, the ZMS statistic does not present this sensitivity issue and offers the most reliable approach in this context. Implications for the validation of conditional calibration are discussed.
翻訳日:2024-02-16 14:59:10 公開日:2024-02-15
# 超狭帯域複合パルスによる捕捉イオンの運動状態解析

Motional state analysis of a trapped ion by ultra-narrowband composite pulses ( http://arxiv.org/abs/2402.10041v1 )

ライセンス: Link先を確認
Marion Mallweger, Milena Guevara-Bertsch, Boyan T. Torosov, Robin Thomm, Natalia Kuk, Harry Parke, Christian F. Roos, Gerard Higgins, Markus Hennrich, Nikolay V. Vitanov(参考訳) 本研究では,高調波発振器に結合した2レベル系の運動状態を測定する手法を提案する。 我々の技術は、青色の側バンド遷移に超狭帯域複合パルスを用いて、異なる運動状態の集団を走査する。 提案手法は運動状態分布に関するこれまでの知識を前提とせず,容易に実装できる。 ラムディッケ政権の内外の両方に適用される。 特に高いフォノン数に対しては、合成パルスシーケンスをフォノン数範囲を測定するフィルタとして使用できる。 単一捕捉イオンを用いた測定手法を実証し, 数値的に評価したパルス列を用いて良好な検出結果を示す。

In this work, we present a method for measuring the motional state of a two-level system coupled to a harmonic oscillator. Our technique uses ultra-narrowband composite pulses on the blue sideband transition to scan through the populations of the different motional states. Our approach does not assume any previous knowledge of the motional state distribution and is easily implemented. It is applicable both inside and outside of the Lamb-Dicke regime. For higher phonon numbers especially, the composite pulse sequence can be used as a filter for measuring phonon number ranges. We demonstrate this measurement technique using a single trapped ion and show good detection results with the numerically evaluated pulse sequence.
翻訳日:2024-02-16 14:58:55 公開日:2024-02-15
# 特徴強調:自然画像に反応する「何」機能を明らかにする

Feature Accentuation: Revealing 'What' Features Respond to in Natural Images ( http://arxiv.org/abs/2402.10039v1 )

ライセンス: Link先を確認
Chris Hamblin, Thomas Fel, Srijani Saha, Talia Konkle, George Alvarez(参考訳) ニューラルネットワークビジョンモデルをデコードする努力は、画像内の特徴応答を管理する空間と意味の両方を包括的に把握する必要がある。 ほとんどの研究は、主に帰属法に焦点を当てており、モデルが特定の特徴に対してどこに注意を向けるかを示すヒートマップの形での説明を提供する。 しかし、「どこで」のみの把握は不足しており、多くの研究がこれらの方法の限界と、モデルが注目の焦点で認識した「何」を理解する必要性を強調している。 並行して、'Feature Visualization'は、ニューラルネットワーク機能を解釈するための別の道を提供する。 このアプローチでは、勾配上昇を通じて最適なイメージを合成し、‘何’機能が反応するかを明確にする。 しかし、機能可視化は機能ごとにひとつのグローバル説明しか提供せず、特定の画像に対して機能がアクティベートされる理由を説明できない。 本研究では,任意の入力画像のどの位置と何にあるかが特徴の応答を誘導するかを伝達できる,解釈可能性ツールキット「Feature accentuation」に新たな手法を導入する。 その核となる特徴強調は、(ノイズシードではなく)画像シード機能可視化である。 パラメータ化,拡張,正規化の特別な組み合わせは,シード画像とターゲット特徴を同時に類似した自然な視覚化をもたらす。 さらに、これらのアクセントメントがモデルによって自然回路に沿って処理されることを確認した。 我々は,Lucentの拡張であるFaccentライブラリとして,機能アクセントの正確な実装をコミュニティに提供する。

Efforts to decode neural network vision models necessitate a comprehensive grasp of both the spatial and semantic facets governing feature responses within images. Most research has primarily centered around attribution methods, which provide explanations in the form of heatmaps, showing where the model directs its attention for a given feature. However, grasping 'where' alone falls short, as numerous studies have highlighted the limitations of those methods and the necessity to understand 'what' the model has recognized at the focal point of its attention. In parallel, 'Feature visualization' offers another avenue for interpreting neural network features. This approach synthesizes an optimal image through gradient ascent, providing clearer insights into 'what' features respond to. However, feature visualizations only provide one global explanation per feature; they do not explain why features activate for particular images. In this work, we introduce a new method to the interpretability tool-kit, 'feature accentuation', which is capable of conveying both where and what in arbitrary input images induces a feature's response. At its core, feature accentuation is image-seeded (rather than noise-seeded) feature visualization. We find a particular combination of parameterization, augmentation, and regularization yields naturalistic visualizations that resemble the seed image and target feature simultaneously. Furthermore, we validate these accentuations are processed along a natural circuit by the model. We make our precise implementation of feature accentuation available to the community as the Faccent library, an extension of Lucent.
翻訳日:2024-02-16 14:58:46 公開日:2024-02-15
# rs-dpo:大規模言語モデルのアライメントのためのハイブリッドリジェクションサンプリングおよび直接選好最適化手法

RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization Method for Alignment of Large Language Models ( http://arxiv.org/abs/2402.10038v1 )

ライセンス: Link先を確認
Saeed Khaki, JinJin Li, Lan Ma, Liu Yang, Prathap Ramachandra(参考訳) 人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルとユーザの意図を結びつけるために広く利用されている。 しかし、PPOに基づくRLHFは時折不安定であり、高パラメータの微調整が必要であり、アライメント中に推定される報酬を最大化するために計算コストがかかる。 近年,これらの課題に対処するためにdpo(direct preference optimization)が提案されている。 しかし、DPOはポリシーモデルではなく、ヒトアノテータと代替LLMから生成された対照的な応答に依存し、RLHFの有効性を制限している。 本稿では,リジェクションサンプリング(RS)とDPOを体系的に組み合わせることで,両課題に対処する。 提案手法であるrs-dpoは,sft(supervised fine-tuned policy model)の開発に着手する。 プロンプト毎に異なるk応答のセットをSFTモデルから直接サンプリングする。 RS-DPOは報酬分布に基づいてコントラストサンプルのペアを特定する。 最後に、DPOを対照的なサンプルに適用し、モデルを人間の好みに合わせる。 実験の結果,提案手法は資源環境に制限のあるLLMを効果的に微調整し,ユーザ意図との整合性を向上させることが示唆された。 さらに、RS、PPO、DPOといった既存の手法よりも優れています。

Reinforcement learning from human feedback (RLHF) has been extensively employed to align large language models with user intent. However, proximal policy optimization (PPO) based RLHF is occasionally unstable requiring significant hyperparameter finetuning, and computationally expensive to maximize the estimated reward during alignment. Recently, direct preference optimization (DPO) is proposed to address those challenges. However, DPO relies on contrastive responses generated from human annotator and alternative LLM, instead of the policy model, limiting the effectiveness of the RLHF. In this paper, we addresses both challenges by systematically combining rejection sampling (RS) and DPO. Our proposed method, RS-DPO, initiates with the development of a supervised fine-tuned policy model (SFT). A varied set of k responses per prompt are sampled directly from the SFT model. RS-DPO identifies pairs of contrastive samples based on their reward distribution. Finally, we apply DPO with the contrastive samples to align the model to human preference. Our experiments indicate that our proposed method effectively fine-tunes LLMs with limited resource environments, leading to improved alignment with user intent. Furthermore, it outperforms existing methods, including RS, PPO, and DPO.
翻訳日:2024-02-16 14:58:25 公開日:2024-02-15
# 未知目標に対する予測線形オンライントラッキング

Predictive Linear Online Tracking for Unknown Targets ( http://arxiv.org/abs/2402.10036v1 )

ライセンス: Link先を確認
Anastasios Tsiamis, Aren Karapetyan, Yueshan Li, Efe C. Balta, John Lygeros(参考訳) 本稿では,移動目標を追従することを目的とした線形制御システムにおけるオンライントラッキングの問題点について検討する。 古典的追跡制御とは異なり、ターゲットは非定常的であり、その状態は順次明らかにされ、オンラインの非確率的制御の枠組みに適合する。 二次コストの場合を考え,予測線形オンライントラッキング(plot)と呼ばれる新しいアルゴリズムを提案する。 このアルゴリズムは、指数的忘れを伴う再帰最小二乗を用いて、ターゲットの時間変化動的モデルを学ぶ。 学習モデルは、後退地平線制御の枠組みに基づく最適方針において用いられる。 ここで、$v_t$ は対象のダイナミクスの総変動であり、$t$ は時間軸である。 先行研究と異なり、我々の理論的な結果は定常的ではない目標に当てはまる。 PLOTを実機に実装し,オープンソースソフトウェアを提供することにより,実機上でのオンライン制御手法の最初の成功例の1つを示す。

In this paper, we study the problem of online tracking in linear control systems, where the objective is to follow a moving target. Unlike classical tracking control, the target is unknown, non-stationary, and its state is revealed sequentially, thus, fitting the framework of online non-stochastic control. We consider the case of quadratic costs and propose a new algorithm, called predictive linear online tracking (PLOT). The algorithm uses recursive least squares with exponential forgetting to learn a time-varying dynamic model of the target. The learned model is used in the optimal policy under the framework of receding horizon control. We show the dynamic regret of PLOT scales with $\mathcal{O}(\sqrt{TV_T})$, where $V_T$ is the total variation of the target dynamics and $T$ is the time horizon. Unlike prior work, our theoretical results hold for non-stationary targets. We implement PLOT on a real quadrotor and provide open-source software, thus, showcasing one of the first successful applications of online control methods on real hardware.
翻訳日:2024-02-16 14:58:03 公開日:2024-02-15
# 解釈可能なリスク予測による診断誤差の低減

Towards Reducing Diagnostic Errors with Interpretable Risk Prediction ( http://arxiv.org/abs/2402.10109v1 )

ライセンス: Link先を確認
Denis Jered McInerney, William Dickinson, Lucy Flynn, Andrea Young, Geoffrey Young, Jan-Willem van de Meent, Byron C. Wallace(参考訳) 臨床医は患者の電子健康記録(EHR)に関連情報にアクセスできないため、多くの診断ミスが発生する。 本研究は, 特定診断のリスクの増大または低下を示す患者ERHデータから, LLMを用いてエビデンスを識別する手法を提案する。 特に, 臨床医がいまだ不確実な時点において, 個別化リスク推定による証拠を裏付けるニューラル付加モデルを提案し, 不完全微分による診断やエラーの遅れを特に軽減することを目的とした。 このようなモデルをトレーニングするには、最終的な"true"診断の時間的きめ細かい振り返りラベルを推測する必要がある。 我々は LLM を用いて, 確実な診断を行う前に, 入力テキストが元のものであることを確かめる。 LLMを用いて証拠のプールを復元するが、モデルによって学習された相関関係に従って、この一連の証拠を精査する。 臨床医が事前に定義した鑑別診断リストの判定にどのように利用されるかをシミュレートし,本手法の有用性を詳細に評価する。

Many diagnostic errors occur because clinicians cannot easily access relevant information in patient Electronic Health Records (EHRs). In this work we propose a method to use LLMs to identify pieces of evidence in patient EHR data that indicate increased or decreased risk of specific diagnoses; our ultimate aim is to increase access to evidence and reduce diagnostic errors. In particular, we propose a Neural Additive Model to make predictions backed by evidence with individualized risk estimates at time-points where clinicians are still uncertain, aiming to specifically mitigate delays in diagnosis and errors stemming from an incomplete differential. To train such a model, it is necessary to infer temporally fine-grained retrospective labels of eventual "true" diagnoses. We do so with LLMs, to ensure that the input text is from before a confident diagnosis can be made. We use an LLM to retrieve an initial pool of evidence, but then refine this set of evidence according to correlations learned by the model. We conduct an in-depth evaluation of the usefulness of our approach by simulating how it might be used by a clinician to decide between a pre-defined list of differential diagnoses.
翻訳日:2024-02-16 14:51:36 公開日:2024-02-15
# 制御可能な拡散言語モデルのための量子埋め込みベクトル

Quantized Embedding Vectors for Controllable Diffusion Language Models ( http://arxiv.org/abs/2402.10107v1 )

ライセンス: Link先を確認
Cheng Kang, Xinye Chen, Yong Hu, Daniel Novak(参考訳) 拡散言語モデル(DLM)の制御性、移植性、推論速度の向上は、自然言語生成において重要な課題である。 近年の研究では、言語モデルによる複雑なテキスト生成が顕著に成功したが、メモリと計算能力は依然として期待に届かず、モデルに対する移植性や不安定性が低下している。 これらの問題を緩和するため、ニューラルネットワーク量子化のための多くの確立された手法が提案された。 独立デプロイメントの可搬性をさらに向上させ,言語難易度によって評価される安定性を向上させるために,量子埋め込み制御拡散言語モデル(QE-CDLM)と呼ばれる新しいアプローチを提案する。 QE-CDLMは、最近成功した制御可能なDLMの上に構築され、量子化によってタスク固有の埋め込み空間をモデル化する。 これにより、生成タスクの勾配ベースのコントローラが得られ、より安定した中間潜伏変数が得られ、自然に収束が加速され、制御性が向上する。 また、調整可能な重量を減らすために適応微調整法を用いる。 難易度制御タスク5つの実験結果から,QE-CDLMは従来手法と品質,実現可能性の面で良好に比較でき,難易度と軽量な微調整が可能であった。

Improving the controllability, portability, and inference speed of diffusion language models (DLMs) is a key challenge in natural language generation. While recent research has shown significant success in complex text generation with language models, the memory and computational power are still very demanding and fall short of expectations, which naturally results in low portability and instability for the models. To mitigate these issues, numerous well-established methods were proposed for neural network quantization. To further enhance their portability of independent deployment as well as improve their stability evaluated by language perplexity, we propose a novel approach called the Quantized Embedding Controllable Diffusion Language Model (QE-CDLM). QE-CDLM builds upon the recent successful controllable DLMs by remodeling the task-specific embedding space via quantization. This leads to a gradient-based controller for the generation tasks, and more stable intermediate latent variables are obtained, which naturally brings in an accelerated convergence as well as better controllability. Additionally, the adaption fine-tuning method is employed to reduce tunable weights. Experimental results on five challenging fine-grained control tasks demonstrate that QE-CDLM compares favorably to existing methods in terms of quality and feasibility, achieving better perplexity and lightweight fine-tuning.
翻訳日:2024-02-16 14:51:02 公開日:2024-02-15
# geoeval:幾何問題解決におけるllmおよびマルチモーダルモデルの評価ベンチマーク

GeoEval: Benchmark for Evaluating LLMs and Multi-Modal Models on Geometry Problem-Solving ( http://arxiv.org/abs/2402.10104v1 )

ライセンス: Link先を確認
Jiaxin Zhang, Zhongzhi Li, Mingliang Zhang, Fei Yin, Chenglin Liu, Yashar Moshfeghi(参考訳) 近年のLarge Language Models (LLM) とMulti-Modal Models (MM) の進歩は,問題解決におけるその顕著な能力を示している。 しかし,テキスト情報と視覚情報の両方を総合的に理解する必要がある幾何問題に対処する能力は十分に評価されていない。 このギャップに対処するために、geoevalベンチマーク、2000問題の主要サブセット、後方推論にフォーカスした750問題サブセット、2000問題の拡張サブセット、300問題のハードサブセットを含む包括的なコレクションを紹介します。 このベンチマークは、幾何学数学問題の解法における LLM と MM の性能について、より深く研究することを促進する。 これらのサブセット間での10個のLLMとMMの評価により、WizardMathモデルは、主サブセットで55.67\%の精度を達成できるが、挑戦的なサブセットでは6.00\%の精度しか達成できないことが分かる。 これは、事前トレーニングされていないデータセットに対してモデルをテストするための重要な必要性を強調している。 さらに, GPTシリーズモデルは, 表現した問題に対して, より効果的に機能することが示唆された。

Recent advancements in Large Language Models (LLMs) and Multi-Modal Models (MMs) have demonstrated their remarkable capabilities in problem-solving. Yet, their proficiency in tackling geometry math problems, which necessitates an integrated understanding of both textual and visual information, has not been thoroughly evaluated. To address this gap, we introduce the GeoEval benchmark, a comprehensive collection that includes a main subset of 2000 problems, a 750 problem subset focusing on backward reasoning, an augmented subset of 2000 problems, and a hard subset of 300 problems. This benchmark facilitates a deeper investigation into the performance of LLMs and MMs on solving geometry math problems. Our evaluation of ten LLMs and MMs across these varied subsets reveals that the WizardMath model excels, achieving a 55.67\% accuracy rate on the main subset but only a 6.00\% accuracy on the challenging subset. This highlights the critical need for testing models against datasets on which they have not been pre-trained. Additionally, our findings indicate that GPT-series models perform more effectively on problems they have rephrased, suggesting a promising method for enhancing model capabilities.
翻訳日:2024-02-16 14:50:24 公開日:2024-02-15
# がん研究のためのプライバシー保護・分散・協調型FCM学習アプローチ

A privacy-preserving, distributed and cooperative FCM-based learning approach for Cancer Research ( http://arxiv.org/abs/2402.10102v1 )

ライセンス: Link先を確認
Jose L. Salmeron and Irina Ar\'evalo(参考訳) 分散人工知能は日々関心を集めている。 本稿では,粒子群最適化に基づくファジィ認知マップを,プライバシ保存方式で分散学習するための革新的な手法を提案する。 著者らは、現在の規制に準拠したデータのプライバシーを提供する協調的なFCM学習のためのトレーニングスキームを設計する。 この方法は、がん検出問題に適用され、連合学習プロセスによってモデルの性能が向上していることが証明され、文献に見られるものと類似の結果が得られる。

Distributed Artificial Intelligence is attracting interest day by day. In this paper, the authors introduce an innovative methodology for distributed learning of Particle Swarm Optimization-based Fuzzy Cognitive Maps in a privacy-preserving way. The authors design a training scheme for collaborative FCM learning that offers data privacy compliant with the current regulation. This method is applied to a cancer detection problem, proving that the performance of the model is improved by the Federated Learning process, and obtaining similar results to the ones that can be found in the literature.
翻訳日:2024-02-16 14:49:47 公開日:2024-02-15
# 分布上の一般化を促す任意のシフト

Any-Shift Prompting for Generalization over Distributions ( http://arxiv.org/abs/2402.10099v1 )

ライセンス: Link先を確認
Zehao Xiao, Jiayi Shen, Mohammad Mahdi Derakhshani, Shengcai Liao, Cees G. M. Snoek(参考訳) 迅速な学習を伴う画像言語モデルは、多くの下流視覚タスクにおいて顕著な進歩を見せている。 しかし,従来のプロンプト学習手法は,トレーニング分布に過度に適合し,テスト分布の一般化能力を失う。 各種分布シフトの一般化を改善するために, 学習過程における学習とテスト分布の関係を考察した, 確率的推論フレームワークを提案する。 階層アーキテクチャでトレーニングとテストプロンプトを構築することにより,潜在空間におけるトレーニングとテスト分布を明示的に結合する。 このフレームワーク内では、テストプロンプトが分散関係を利用して、CLIPイメージ言語モデルのトレーニングからテストディストリビューションへの一般化を導く。 分散情報とその関係を効果的に符号化するために,擬似シフト学習機構を備えたトランスフォーマー推論ネットワークを導入する。 ネットワークは、トレーニング情報とテスト情報の両方をフィードフォワードパスで生成し、テスト時の追加のトレーニングコストを回避する。 21のデータセットに対する大規模な実験は、様々な分布シフトの一般化を促す任意のシフトの有効性を示す。

Image-language models with prompt learning have shown remarkable advances in numerous downstream vision tasks. Nevertheless, conventional prompt learning methods overfit their training distribution and lose the generalization ability on test distributions. To improve generalization across various distribution shifts, we propose any-shift prompting: a general probabilistic inference framework that considers the relationship between training and test distributions during prompt learning. We explicitly connect training and test distributions in the latent space by constructing training and test prompts in a hierarchical architecture. Within this framework, the test prompt exploits the distribution relationships to guide the generalization of the CLIP image-language model from training to any test distribution. To effectively encode the distribution information and their relationships, we further introduce a transformer inference network with a pseudo-shift training mechanism. The network generates the tailored test prompt with both training and test information in a feedforward pass, avoiding extra training costs at test time. Extensive experiments on twenty-three datasets demonstrate the effectiveness of any-shift prompting on the generalization over various distribution shifts.
翻訳日:2024-02-16 14:48:51 公開日:2024-02-15
# 分類拡散モデル

Classification Diffusion Models ( http://arxiv.org/abs/2402.10095v1 )

ライセンス: Link先を確認
Shahar Yadin, Noam Elata, Tomer Michaeli(参考訳) データ分散を学習する一流の手法は密度比推定(DRE)に依存し、モデルがデータサンプルと参照分布からのサンプルの間で$\textit{classify}$にトレーニングされる。 これらの手法は単純な低次元設定では成功しているが、画像のような複雑な高次元データでは良い結果を得ることができない。 分散を学習する別の方法の1つに拡散モデル(DDM)があるが、そこではモデルが$\textit{denoise}$データサンプルに訓練される。 これらのアプローチは、画像、ビデオ、オーディオ生成における最先端の結果を達成する。 本稿では、DRE法と同様にクリーン信号に付加される雑音の量を予測する分類器を用いて、DDMの復調に基づく定式化を採用する生成手法である$\textit{Classification Diffusion Models}$(CDMs)を提案する。 提案手法は,白色ガウス雑音に対するMSE-最適雑音分解器を,雑音レベル予測のためのクロスエントロピー-最適分類器の勾配で表現できることに基づく。 以下に示すように、CDMはDDMと比較してより優れた分解結果を得ることができ、画像生成において少なくとも同等のFIDをもたらす。 cdmは、1ステップのメソッド間で最先端の結果を得るため、高効率な1ステップ正確な推定も可能である。 コードはプロジェクトのwebページからhttps://shaharyadin.github.io/cdm/で入手できる。

A prominent family of methods for learning data distributions relies on density ratio estimation (DRE), where a model is trained to $\textit{classify}$ between data samples and samples from some reference distribution. These techniques are successful in simple low-dimensional settings but fail to achieve good results on complex high-dimensional data, like images. A different family of methods for learning distributions is that of denoising diffusion models (DDMs), in which a model is trained to $\textit{denoise}$ data samples. These approaches achieve state-of-the-art results in image, video, and audio generation. In this work, we present $\textit{Classification Diffusion Models}$ (CDMs), a generative technique that adopts the denoising-based formalism of DDMs while making use of a classifier that predicts the amount of noise added to a clean signal, similarly to DRE methods. Our approach is based on the observation that an MSE-optimal denoiser for white Gaussian noise can be expressed in terms of the gradient of a cross-entropy-optimal classifier for predicting the noise level. As we illustrate, CDM achieves better denoising results compared to DDM, and leads to at least comparable FID in image generation. CDM is also capable of highly efficient one-step exact likelihood estimation, achieving state-of-the-art results among methods that use a single step. Code is available on the project's webpage in https://shaharYadin.github.io/CDM/ .
翻訳日:2024-02-16 14:48:09 公開日:2024-02-15
# MIM-Refiner: 中間的事前学習表現からのコントラスト学習

MIM-Refiner: A Contrastive Learning Boost from Intermediate Pre-Trained Representations ( http://arxiv.org/abs/2402.10093v1 )

ライセンス: Link先を確認
Benedikt Alkin and Lukas Miklautz and Sepp Hochreiter and Johannes Brandstetter(参考訳) 事前学習されたMIMモデルに対する対照的な学習促進であるMIM-Refinerを導入する。 MIM-Refinerの背景にある動機は、MIMモデル内の最適な表現が一般的に中間層に存在するという洞察に根ざしている。 そのため、MIM-Refinerは様々な中間層に接続された複数のコントラストヘッドを利用する。 各ヘッドでは、修正された直近の目的が、各セマンティクスクラスタを構築するのに役立ちます。 精錬プロセスは短いが効果的である。 数世紀以内に、MIMモデルの機能をサブパーから最先端のオフザシェルフ機能まで洗練します。 ImageNet-1KでData2vec 2.0で事前トレーニングされたViT-Hは、リニアプローブ(84.7%)と、ImageNet-1Kで事前トレーニングされたモデル間のローショット分類において、新しい最先端の結果を達成する。 ImageNet-1Kの1ショット分類では、MIM-Refinerは64.2%の新しい最先端のモデルを設定し、DINOv2-g、OpenCLIP-G、MAWS-6.5Bなどの2000倍以上のデータでトレーニングされたより大きなモデルより優れている。 プロジェクトページ: https://ml-jku.github.io/mim-refiner

We introduce MIM (Masked Image Modeling)-Refiner, a contrastive learning boost for pre-trained MIM models. The motivation behind MIM-Refiner is rooted in the insight that optimal representations within MIM models generally reside in intermediate layers. Accordingly, MIM-Refiner leverages multiple contrastive heads that are connected to diverse intermediate layers. In each head, a modified nearest neighbor objective helps to construct respective semantic clusters. The refinement process is short but effective. Within a few epochs, we refine the features of MIM models from subpar to state-of-the-art, off-the-shelf features. Refining a ViT-H, pre-trained with data2vec 2.0 on ImageNet-1K, achieves new state-of-the-art results in linear probing (84.7%) and low-shot classification among models that are pre-trained on ImageNet-1K. In ImageNet-1K 1-shot classification, MIM-Refiner sets a new state-of-the-art of 64.2%, outperforming larger models that were trained on up to 2000x more data such as DINOv2-g, OpenCLIP-G and MAWS-6.5B. Project page: https://ml-jku.github.io/MIM-Refiner
翻訳日:2024-02-16 14:47:44 公開日:2024-02-15
# GPT-4を用いた眼科用微調整大型言語モデル(LLM)人工知能チャットボットとLCMによる評価

Fine-tuning Large Language Model (LLM) Artificial Intelligence Chatbots in Ophthalmology and LLM-based evaluation using GPT-4 ( http://arxiv.org/abs/2402.10083v1 )

ライセンス: Link先を確認
Ting Fang Tan, Kabilan Elangovan, Liyuan Jin, Yao Jie, Li Yong, Joshua Lim, Stanley Poh, Wei Yan Ng, Daniel Lim, Yuhe Ke, Nan Liu, Daniel Shu Wei Ting(参考訳) 目的: 微調整LLMチャットボットによる眼科関連患者の質問に対する応答の評価において, ヒト臨床専門医に対するGPT-4に基づく評価のアライメントを評価すること。 方法:400の眼科質問とペア答が眼科医によって作成され,一般に質問される患者の質問を表現し,微調整(368; 92%),検査(40; 8%)に分けられた。 LLAMA2-7b, LLAMA2-7b-Chat, LLAMA2-13b, LLAMA2-13b-Chatを含む5種類のLLMを調整した。 テストデータセットには、さらに8つの緑内障QnAペアが含まれていた。 テストデータセットに対する200の応答は、評価のために5つの微調整LDMによって生成された。 GPT-4の評価は, 臨床精度, 関連性, 患者の安全性, 理解の容易さに基礎を置いている。 gpt-4の評価を5名の臨床医で比較した。 結果: GPT-3.5が87.1%, LLAMA2-13bが80.9%, LLAMA2-13b-chatが75.5%, LLAMA2-7b-Chatが70%, LLAMA2-7bが68.8%であった。 GPT-4の評価では,SpearmanとKendall Tauの相関係数は0.90,Kendall Tauは0.80,Cohen Kappaの相関係数は0.50であった。 特に, 質的解析と緑内障のサブアナリシスの結果, LLM産生反応の臨床的不正確性が明らかとなり, GPT-4の評価で適切に同定された。 結論: GPT-4 評価の顕著な臨床適応は,医療関連質問に対する LLM チャットボット応答の臨床評価の合理化の可能性を強調した。 既存のクリニック依存の手動グルーピングを補完することにより、この効率的かつ自動化された評価は、医療用LLMアプリケーションにおける将来の開発を検証するのに役立つ。

Purpose: To assess the alignment of GPT-4-based evaluation to human clinician experts, for the evaluation of responses to ophthalmology-related patient queries generated by fine-tuned LLM chatbots. Methods: 400 ophthalmology questions and paired answers were created by ophthalmologists to represent commonly asked patient questions, divided into fine-tuning (368; 92%), and testing (40; 8%). We find-tuned 5 different LLMs, including LLAMA2-7b, LLAMA2-7b-Chat, LLAMA2-13b, and LLAMA2-13b-Chat. For the testing dataset, additional 8 glaucoma QnA pairs were included. 200 responses to the testing dataset were generated by 5 fine-tuned LLMs for evaluation. A customized clinical evaluation rubric was used to guide GPT-4 evaluation, grounded on clinical accuracy, relevance, patient safety, and ease of understanding. GPT-4 evaluation was then compared against ranking by 5 clinicians for clinical alignment. Results: Among all fine-tuned LLMs, GPT-3.5 scored the highest (87.1%), followed by LLAMA2-13b (80.9%), LLAMA2-13b-chat (75.5%), LLAMA2-7b-Chat (70%) and LLAMA2-7b (68.8%) based on the GPT-4 evaluation. GPT-4 evaluation demonstrated significant agreement with human clinician rankings, with Spearman and Kendall Tau correlation coefficients of 0.90 and 0.80 respectively; while correlation based on Cohen Kappa was more modest at 0.50. Notably, qualitative analysis and the glaucoma sub-analysis revealed clinical inaccuracies in the LLM-generated responses, which were appropriately identified by the GPT-4 evaluation. Conclusion: The notable clinical alignment of GPT-4 evaluation highlighted its potential to streamline the clinical evaluation of LLM chatbot responses to healthcare-related queries. By complementing the existing clinician-dependent manual grading, this efficient and automated evaluation could assist the validation of future developments in LLM applications for healthcare.
翻訳日:2024-02-16 14:47:21 公開日:2024-02-15
# fedrdf:フェデレーション学習における中毒攻撃に対するロバストで動的集約関数

FedRDF: A Robust and Dynamic Aggregation Function against Poisoning Attacks in Federated Learning ( http://arxiv.org/abs/2402.10082v1 )

ライセンス: Link先を確認
Enrique M\'armol Campos and Aurora Gonz\'alez Vidal and Jos\'e Luis Hern\'andez Ramos and Antonio Skarmeta(参考訳) Federated Learning(FL)は、集中型機械学習(ML)デプロイメントに関連する典型的なプライバシ問題に対する、有望なアプローチである。 そのよく知られた利点にもかかわらず、FLはビザンチンの行動や中毒攻撃のようなセキュリティ攻撃に弱いため、モデルの性能を著しく低下させ、収束を妨げる。 特定の攻撃の場合, 中央値, トリミング平均値, クルム集約関数など, 複雑な攻撃を緩和するための既存のアプローチの有効性は, 部分的にしか示されていない。 本研究では,攻撃者数を事前に知ることなく,高度な攻撃を効果的に処理できるフーリエ変換(ft)を利用した新しいロバストアグリゲーション機構を提案する。 この手法を用いて、FLクライアントが生成した重みを周波数領域に投影し、その密度関数を確認し、最も高い周波数を示すものを選択する。 その結果、悪意のあるクライアントの重みは除外される。 提案手法は各種モデル毒殺攻撃に対して試験され,最先端の凝集法よりも優れた性能を示した。

Federated Learning (FL) represents a promising approach to typical privacy concerns associated with centralized Machine Learning (ML) deployments. Despite its well-known advantages, FL is vulnerable to security attacks such as Byzantine behaviors and poisoning attacks, which can significantly degrade model performance and hinder convergence. The effectiveness of existing approaches to mitigate complex attacks, such as median, trimmed mean, or Krum aggregation functions, has been only partially demonstrated in the case of specific attacks. Our study introduces a novel robust aggregation mechanism utilizing the Fourier Transform (FT), which is able to effectively handling sophisticated attacks without prior knowledge of the number of attackers. Employing this data technique, weights generated by FL clients are projected into the frequency domain to ascertain their density function, selecting the one exhibiting the highest frequency. Consequently, malicious clients' weights are excluded. Our proposed approach was tested against various model poisoning attacks, demonstrating superior performance over state-of-the-art aggregation methods.
翻訳日:2024-02-16 14:46:33 公開日:2024-02-15
# QUICK:効率的なLLM推論のための量子化対応インターリービングと競合のないカーネル

QUICK: Quantization-aware Interleaving and Conflict-free Kernel for efficient LLM inference ( http://arxiv.org/abs/2402.10076v1 )

ライセンス: Link先を確認
Taesu Kim, Jongho Lee, Daehyun Ahn, Sarang Kim, Jiwoong Choi, Minkyu Kim and Hyungjun Kim(参考訳) 本稿では、量子化大言語モデル(LLM)の効率的な推論のための新しい最適化CUDAカーネル群であるQUICKを紹介する。 QUICKは、最先端の混合精度行列乗算カーネルの共有メモリバンク競合問題に対処する。 本手法は, LLMの量子化重み行列をオフラインでインターリーブし, 復号化後の共有メモリ書き込みをスキップする。 我々は、大規模なバッチでAutoAWQの既存のカーネルを最大1.91倍のスピードアップし、NVIDIA GPUデバイスで代表的LLMモデルで最大1.94倍のスループット向上を示す。

We introduce QUICK, a group of novel optimized CUDA kernels for the efficient inference of quantized Large Language Models (LLMs). QUICK addresses the shared memory bank-conflict problem of state-of-the-art mixed precision matrix multiplication kernels. Our method interleaves the quantized weight matrices of LLMs offline to skip the shared memory write-back after the dequantization. We demonstrate up to 1.91x speedup over existing kernels of AutoAWQ on larger batches and up to 1.94x throughput gain on representative LLM models on various NVIDIA GPU devices.
翻訳日:2024-02-16 14:46:16 公開日:2024-02-15
# GraphCBAL:強化学習によるグラフニューラルネットワークのためのクラスベースアクティブラーニング

GraphCBAL: Class-Balanced Active Learning for Graph Neural Networks via Reinforcement Learning ( http://arxiv.org/abs/2402.10074v1 )

ライセンス: Link先を確認
Chengcheng Yu, Jiapeng Zhu, Xiang Li(参考訳) グラフニューラルネットワーク(GNN)は近年,大きな成功を収めている。 GNNのアクティブラーニングは、ラベルのないデータから貴重なサンプルを照会して、GNNのパフォーマンスを低コストで最大化することを目的としている。 しかし、既存のGNNにおける強化能動学習手法のほとんどは、特に高度に歪んだクラスシナリオにおいて、高度に不均衡なクラス分布をもたらす可能性がある。 これはさらに分類性能に悪影響を及ぼす。 この問題に対処するため,本稿では,GNNのための拡張型クラスバランス型アクティブラーニングフレームワーク,すなわちGraphCBALを提案する。 アノテーションのためのクラスバランスと情報ノードを取得するための最適なポリシーを学び、選択されたラベル付きノードでトレーニングされたGNNのパフォーマンスを最大化する。 GraphCBALは、クラスバランスを意識した状態と、モデルパフォーマンスとクラスバランスのトレードオフを実現する報酬関数を設計する。 我々はさらにGraphCBALをGraphCBAL++にアップグレードし、よりクラスバランスのよいラベル付き集合を得るための罰則を導入する。 複数のデータセットに対する大規模な実験は、提案手法の有効性を示し、最先端のベースラインよりも優れた性能を実現する。 特に,本手法は分類結果とクラスバランスのバランスをとることができる。

Graph neural networks (GNNs) have recently demonstrated significant success. Active learning for GNNs aims to query the valuable samples from the unlabeled data for annotation to maximize the GNNs' performance at a low cost. However, most existing methods for reinforced active learning in GNNs may lead to a highly imbalanced class distribution, especially in highly skewed class scenarios. This further adversely affects the classification performance. To tackle this issue, in this paper, we propose a novel reinforced class-balanced active learning framework for GNNs, namely, GraphCBAL. It learns an optimal policy to acquire class-balanced and informative nodes for annotation, maximizing the performance of GNNs trained with selected labeled nodes. GraphCBAL designs class-balance-aware states, as well as a reward function that achieves trade-off between model performance and class balance. We further upgrade GraphCBAL to GraphCBAL++ by introducing a punishment mechanism to obtain a more class-balanced labeled set. Extensive experiments on multiple datasets demonstrate the effectiveness of the proposed approaches, achieving superior performance over state-of-the-art baselines. In particular, our methods can strike the balance between classification results and class balance.
翻訳日:2024-02-16 14:46:05 公開日:2024-02-15
# 両論とも、一般知能を損なうことなく大規模言語モデルの感情知性を高めること

Both Matter: Enhancing the Emotional Intelligence of Large Language Models without Compromising the General Intelligence ( http://arxiv.org/abs/2402.10073v1 )

ライセンス: Link先を確認
Weixiang Zhao, Zhuojun Li, Shilong Wang, Yang Wang, Yulin Hu, Yanyan Zhao, Chen Wei, Bing Qin(参考訳) 感情インテリジェンス(EI)は、感情知覚、感情認知、感情表現から構成され、現在の大言語モデル(LLM)ベースの会話型汎用AIアシスタントのユーザインタラクションエクスペリエンスを改善する上で重要な役割を果たす。 これまでの研究は主に、EI関連分類や回帰タスクの微調整による感情知覚能力の向上に重点を置いていた。 しかし、これはEIの不完全な拡張と一般知能(GI)の破滅的な忘れに繋がる。 この目的のために、まず、テキストからテキストへの変換におけるei関連のタスクの大規模なコレクションである \textsc{eibench} を ei の3つの側面すべてをカバーするタスク命令とともに導入し、llms の包括的な ei 拡張のための強固な基盤を構築した。 そこで, Modular Parameter Expansion と Inter-inter modulation からなる新しい \underline{\textbf{Mo}}dular \underline{\textbf{E}}motional \underline{\textbf{I}}ntelligence enhancement method (\textbf{MoEI}) を提案し, GI を損なわずに LLM の EI を包括的に拡張する。 Flan-T5 と LLaMA-2-Chat の 2 つの LLM ベースアシスタントの広範囲な実験は、GI を維持しながら、EI を改善するための MoEI の有効性を実証している。

Emotional Intelligence (EI), consisting of emotion perception, emotion cognition and emotion expression, plays the critical roles in improving user interaction experience for the current large language model (LLM) based conversational general AI assistants. Previous works mainly focus on raising the emotion perception ability of them via naive fine-tuning on EI-related classification or regression tasks. However, this leads to the incomplete enhancement of EI and catastrophic forgetting of the general intelligence (GI). To this end, we first introduce \textsc{EiBench}, a large-scale collection of EI-related tasks in the text-to-text formation with task instructions that covers all three aspects of EI, which lays a solid foundation for the comprehensive EI enhancement of LLMs. Then a novel \underline{\textbf{Mo}}dular \underline{\textbf{E}}motional \underline{\textbf{I}}ntelligence enhancement method (\textbf{MoEI}), consisting of Modular Parameter Expansion and intra-inter modulation, is proposed to comprehensively enhance the EI of LLMs without compromise their GI. Extensive experiments on two representative LLM-based assistants, Flan-T5 and LLaMA-2-Chat, demonstrate the effectiveness of MoEI to improving EI while maintain GI.
翻訳日:2024-02-16 14:45:44 公開日:2024-02-15
# NYCTALE:適応性およびパーソナライズされた肺結節浸潤予測のための神経エビデンス変換器

NYCTALE: Neuro-Evidence Transformer for Adaptive and Personalized Lung Nodule Invasiveness Prediction ( http://arxiv.org/abs/2402.10066v1 )

ライセンス: Link先を確認
Sadaf Khademi, Anastasia Oikonomou, Konstantinos N. Plataniotis, Arash Mohammadi(参考訳) 霊長類の脳の興味深い証拠蓄積プロセスからインスピレーションを得て、認知心理学と神経科学のモデルに導かれるこの論文は、ニューロインスパイアされた証拠蓄積に基づくトランスフォーマーアーキテクチャであるnyctaleフレームワークを紹介している。 提案されたニューラルインスパイアされたNYCTALEは、肺がん診断のためのパーソナライズドメディカル(PM)ドメインの新しい経路を提供する。 自然界では、夜行性で知られ、主に夜の暗闇の中で狩りをする小型フクロウである。 NYCTALEも同様に警戒的な方法で、すなわちエビデンスベースの方法でデータを処理し、動的かつ適応的に予測を行う。 従来のCTベースのDeep Learning(DL)モデルとは異なり、NYCTALEは十分な量の証拠が蓄積された場合にのみ予測を行う。 言い換えれば、CTスライスの全または予め定義されたサブセットを処理する代わりに、各人に対して、スライスを一度に1つずつ提供する。 その後、NYCTALEフレームワークは、新しいCT画像のコントリビューションに関連するエビデンスベクトルを計算する。 合計された証拠が特定の閾値を超えると、決定が行われる。 114名の被験者からなるチャレンジインハウスデータセットを用いた予備的な実験分析。 その結果、NYCTALEは、この要求の少ないデータセットのトレーニングデータを約60%削減しても、ベンチマークの精度より優れていることを示唆している。

Drawing inspiration from the primate brain's intriguing evidence accumulation process, and guided by models from cognitive psychology and neuroscience, the paper introduces the NYCTALE framework, a neuro-inspired and evidence accumulation-based Transformer architecture. The proposed neuro-inspired NYCTALE offers a novel pathway in the domain of Personalized Medicine (PM) for lung cancer diagnosis. In nature, Nyctales are small owls known for their nocturnal behavior, hunting primarily during the darkness of night. The NYCTALE operates in a similarly vigilant manner, i.e., processing data in an evidence-based fashion and making predictions dynamically/adaptively. Distinct from conventional Computed Tomography (CT)-based Deep Learning (DL) models, the NYCTALE performs predictions only when sufficient amount of evidence is accumulated. In other words, instead of processing all or a pre-defined subset of CT slices, for each person, slices are provided one at a time. The NYCTALE framework then computes an evidence vector associated with contribution of each new CT image. A decision is made once the total accumulated evidence surpasses a specific threshold. Preliminary experimental analyses conducted using a challenging in-house dataset comprising 114 subjects. The results are noteworthy, suggesting that NYCTALE outperforms the benchmark accuracy even with approximately 60% less training data on this demanding and small dataset.
翻訳日:2024-02-16 14:45:11 公開日:2024-02-15
# それぞれのデータポイントがあなたのプライバシをリークする金額は? per-datumメンバーシップリークの定量化

How Much Does Each Datapoint Leak Your Privacy? Quantifying the Per-datum Membership Leakage ( http://arxiv.org/abs/2402.10065v1 )

ライセンス: Link先を確認
Achraf Azize, Debabrota Basu(参考訳) 本研究では,攻撃者がアルゴリズムの入力データセットに固定目標ダタムが含まれているかどうかを推測し,プライバシーを侵害することを目的とした,ダタム単位のメンバシップ推論攻撃(MIA)について検討する。 まず、datumのメンバシップリークを、最適な敵ターゲティングの利点として定義し、それを識別する。 次に,実験的な平均値に対するdatumあたりのメンバシップリークを定量化し,対象のdatumとデータ生成分布との間のマハラノビス距離に依存することを示す。 さらに,2つのプライバシー保護,すなわちガウスノイズとサブサンプリングの効果についても検討する。 両者がダンタム単位のメンバシップリークを減らす方法を正確に定量化します。 本解析は,確率比検定のエッジワース展開とリンデベルグ・フェラー中心極限定理を組み合わせた新しい証明手法を基礎としている。 当社の分析では,既存度比とスカラー製品攻撃を結びつけ,プライバシー監査文献で使用するカナリア選択戦略の正当化も行っている。 最後に, この理論が示すように, 漏洩スコア, サブサンプリング比, ノイズスケールがダム当たりの漏洩に与える影響を実証した。

We study the per-datum Membership Inference Attacks (MIAs), where an attacker aims to infer whether a fixed target datum has been included in the input dataset of an algorithm and thus, violates privacy. First, we define the membership leakage of a datum as the advantage of the optimal adversary targeting to identify it. Then, we quantify the per-datum membership leakage for the empirical mean, and show that it depends on the Mahalanobis distance between the target datum and the data-generating distribution. We further assess the effect of two privacy defences, i.e. adding Gaussian noise and sub-sampling. We quantify exactly how both of them decrease the per-datum membership leakage. Our analysis builds on a novel proof technique that combines an Edgeworth expansion of the likelihood ratio test and a Lindeberg-Feller central limit theorem. Our analysis connects the existing likelihood ratio and scalar product attacks, and also justifies different canary selection strategies used in the privacy auditing literature. Finally, our experiments demonstrate the impacts of the leakage score, the sub-sampling ratio and the noise scale on the per-datum membership leakage as indicated by the theory.
翻訳日:2024-02-16 14:44:45 公開日:2024-02-15
# アンロック構造測定:位置談話コヒーレンスの自動計測装置PDDの導入

Unlocking Structure Measuring: Introducing PDD, an Automatic Metric for Positional Discourse Coherence ( http://arxiv.org/abs/2402.10175v1 )

ライセンス: Link先を確認
Yinhong Liu, Yixuan Su, Ehsan Shareghi and Nigel Collier(参考訳) 近年の大規模言語モデル (LLM) は, 様々なタスクにまたがって生成したテキストとユーザ意図の整合性を示す。 長文テキスト生成に関しては、談話コヒーレンスの観点からの生成への関心が高まっている。 しかし、bleu, rouge, bertscoreのような既存の語彙的あるいは意味的メトリクスは、効果的に談話の一貫性を捉えることができない。 LLMのアウトプットを評価するための談話固有の自動評価手法の開発は、より焦点と探索を確実にする。 本稿では,2つの長文間の談話の発散を定量化する新しい自動計量法を提案する。 代表領域からの3つのデータセットに関する広範囲な実験により、このメトリクスは人間の好みやgpt-4コヒーレンス評価とより密接に一致し、既存の評価方法よりも優れています。

Recent large language models (LLMs) have shown remarkable performance in aligning generated text with user intentions across various tasks. When it comes to long-form text generation, there has been a growing interest in generation from a discourse coherence perspective. However, existing lexical or semantic metrics such as BLEU, ROUGE, BertScore cannot effectively capture the discourse coherence. The development of discourse-specific automatic evaluation methods for assessing the output of LLMs warrants greater focus and exploration. In this paper, we present a novel automatic metric designed to quantify the discourse divergence between two long-form articles. Extensive experiments on three datasets from representative domains demonstrate that our metric aligns more closely with human preferences and GPT-4 coherence evaluation, outperforming existing evaluation methods.
翻訳日:2024-02-16 14:37:09 公開日:2024-02-15
# $f$-MICL:InfoNCEに基づくコントラスト学習の理解と一般化

$f$-MICL: Understanding and Generalizing InfoNCE-based Contrastive Learning ( http://arxiv.org/abs/2402.10150v1 )

ライセンス: Link先を確認
Yiwei Lu,Guojun Zhang,Sun Sun,Hongyu Guo,Yaoliang Yu(参考訳) 自己教師付きコントラスト学習において、広く受け入れられている目的関数はInfoNCEであり、表現比較にヒューリスティックなコサイン類似性を使用し、KLに基づく相互情報の最大化と密接に関連している。 本稿では,(1)klベースの目標を越えられるか,という2つの興味をそそる疑問に答えることを目的とする。 2) 一般的なコサイン類似性に加えて,より優れた類似性関数を設計できるだろうか? 比較学習におけるKLに基づく相互情報を$f$-Mutual Information in Contrastive Learning (f$-MICL) に一般化することにより,両質問に対する回答を提供する。 最初の質問に答えるために、我々はインフォデンスの優れた特性(例えば、アライメントと均一性)を共有する広範囲の$f$-micl目標を提供します。 2つ目の質問は、ジョイント特徴分布がガウス核に比例すると仮定すると、より優れた解釈可能性と経験的性能を持つ、f$-gaussian similarityが導出される。 最後に、$f$-MICLの目的と人気のあるInfoNCEの目的との密接な関係を同定する。 視覚と自然言語の両方のベンチマークタスクを使用して、さまざまなアーキテクチャ(SimCLR、MoCo、MoCo v3)とデータセット上で異なる$f$-divergencesを持つ$f$-MICLを経験的に評価します。 一般に$f$-MICLはベンチマークよりも優れており、最も優れた$f$-divergenceはタスクとデータセットに依存している。

In self-supervised contrastive learning, a widely-adopted objective function is InfoNCE, which uses the heuristic cosine similarity for the representation comparison, and is closely related to maximizing the Kullback-Leibler (KL)-based mutual information. In this paper, we aim at answering two intriguing questions: (1) Can we go beyond the KL-based objective? (2) Besides the popular cosine similarity, can we design a better similarity function? We provide answers to both questions by generalizing the KL-based mutual information to the $f$-Mutual Information in Contrastive Learning ($f$-MICL) using the $f$-divergences. To answer the first question, we provide a wide range of $f$-MICL objectives which share the nice properties of InfoNCE (e.g., alignment and uniformity), and meanwhile result in similar or even superior performance. For the second question, assuming that the joint feature distribution is proportional to the Gaussian kernel, we derive an $f$-Gaussian similarity with better interpretability and empirical performance. Finally, we identify close relationships between the $f$-MICL objective and several popular InfoNCE-based objectives. Using benchmark tasks from both vision and natural language, we empirically evaluate $f$-MICL with different $f$-divergences on various architectures (SimCLR, MoCo, and MoCo v3) and datasets. We observe that $f$-MICL generally outperforms the benchmarks and the best-performing $f$-divergence is task and dataset dependent.
翻訳日:2024-02-16 14:36:54 公開日:2024-02-15
# 不完全および非IIDデータセットのためのカオスマップに基づくプライバシー保護型分散ディープラーニング

A chaotic maps-based privacy-preserving distributed deep learning for incomplete and Non-IID datasets ( http://arxiv.org/abs/2402.10145v1 )

ライセンス: Link先を確認
Irina Ar\'evalo and Jose L. Salmeron(参考訳) フェデレーション学習(federated learning)は、データプライバシを損なうことなく、自身の知識を共有したいと願う機密データを持つ、複数の参加者によるディープラーニングモデルのトレーニングを可能にする、マシンラーニングのアプローチである。 本研究では,セキュアなフェデレート学習手法と付加的なプライバシー層を用いて,非IID課題に対処する手法を提案する。 さらに、差分プライバシーはカオスベースの暗号化をプライバシー層として比較する。 実験手法は,IDDデータと非IIDデータの両方を用いて,差分プライバシーを用いたフェデレーション深層学習モデルの性能を評価する。 各実験において、フェデレーション学習プロセスは、非iidデータの場合であっても、ディープニューラルネットワークの平均パフォーマンスメトリクスを改善する。

Federated Learning is a machine learning approach that enables the training of a deep learning model among several participants with sensitive data that wish to share their own knowledge without compromising the privacy of their data. In this research, the authors employ a secured Federated Learning method with an additional layer of privacy and proposes a method for addressing the non-IID challenge. Moreover, differential privacy is compared with chaotic-based encryption as layer of privacy. The experimental approach assesses the performance of the federated deep learning model with differential privacy using both IID and non-IID data. In each experiment, the Federated Learning process improves the average performance metrics of the deep neural network, even in the case of non-IID data.
翻訳日:2024-02-16 14:36:24 公開日:2024-02-15
# 動的学習者による確率変化の追跡

Tracking Changing Probabilities via Dynamic Learners ( http://arxiv.org/abs/2402.10142v1 )

ライセンス: Link先を確認
Omid Madani(参考訳) 個別項目のストリームを入力とする予測子、学習者を考える。 予測者のタスクは、各時点において確率的多クラス予測であり、すなわち、0以上の候補項目を出力して次にどの項目が発生するかを予測し、その後、実際の項目が明らかにされ、予測者がこの観察から学習する。 確率を出力するために、予測器は見たアイテムの比率を追跡する。 ストリームはアンバウンドであり、アイテムのセットは予測者に知られておらず、その総和もアンバウンドになり得る。 さらに、非定常性があり、アイテムの基盤となる周波数は、時間によって大きく変化する可能性がある。 例えば、新しいアイテムが出現し始め、現在頻繁なアイテムが再び発生しなくなる可能性がある。 空間有界な予測器は、これらの項目に対して十分に高い周波数(すなわち、有理な項目)でのみ確率を与える必要がある。 この問題は予測ゲームの設定において動機付けられ、概念が予測子と予測子の両方として機能し、概念の集合は時間とともに成長し、新しい概念が生成され、使用されるにつれて非定常性をもたらす。 このような非定常にタイムリーに応答するように設計された移動平均技術を開発し,その特性を探究する。 1つはカウントスナップショットのキューに基づく単純なテクニックであり、もう1つはスパースEMAの拡張バージョンとキューの組み合わせである。 後者の組み合わせは予測と特定の動的学習率をサポートする。 この柔軟性によって、より正確でタイムリーな収束が可能になります。

Consider a predictor, a learner, whose input is a stream of discrete items. The predictor's task, at every time point, is probabilistic multiclass prediction, i.e., to predict which item may occur next by outputting zero or more candidate items, each with a probability, after which the actual item is revealed and the predictor learns from this observation. To output probabilities, the predictor keeps track of the proportions of the items it has seen. The predictor has constant (limited) space and we seek efficient prediction and update techniques: The stream is unbounded, the set of items is unknown to the predictor and their totality can also grow unbounded. Moreover, there is non-stationarity: the underlying frequencies of items may change, substantially, from time to time. For instance, new items may start appearing and a few currently frequent items may cease to occur again. The predictor, being space-bounded, need only provide probabilities for those items with (currently) sufficiently high frequency, i.e., the salient items. This problem is motivated in the setting of prediction games, a self-supervised learning regime where concepts serve as both the predictors and the predictands, and the set of concepts grows over time, resulting in non-stationarities as new concepts are generated and used. We develop moving average techniques designed to respond to such non-stationarities in a timely manner, and explore their properties. One is a simple technique based on queuing of count snapshots, and another is a combination of queuing together with an extended version of sparse EMA. The latter combination supports predictand-specific dynamic learning rates. We find that this flexibility allows for a more accurate and timely convergence.
翻訳日:2024-02-16 14:36:11 公開日:2024-02-15
# TOAD: 多様な応答スタイルを持つタスク指向自動ダイアログ

TOAD: Task-Oriented Automatic Dialogs with Diverse Response Styles ( http://arxiv.org/abs/2402.10137v1 )

ライセンス: Link先を確認
Yinhong Liu, Yimai Fang, David Vandyke and Nigel Collier(参考訳) 大規模言語モデル~(LLM)の最近の進歩を踏まえると、次世代バーチャルアシスタントに対する期待には、さまざまな利用シナリオにおける自然性と適応性の向上が含まれている。 しかし、タスク指向対話(TOD)のための高品質な注釈付きデータの作成は遅くてコストがかかる。 これらの課題に対処するために,新しいスケーラブルなTODデータセットであるTask-Oriented Automatic Dialogs~(TOAD)と自動生成パイプラインを紹介する。 TOADデータセットは、現実的なアプリケーションコンテキストのインタラクションをシミュレートし、さまざまなシステムレスポンススタイルオプションを提供する。 システム応答スタイルの2つの側面は、冗長度レベルとユーザの表現ミラーリングである。 我々はTOADを2つの応答生成タスクでベンチマークし、その結果、ユーザ表現ミラーリングなしでより冗長または応答のモデリングがより困難であることを示す。

In light of recent advances in large language models~(LLMs), the expectations for the next generation of virtual assistants include enhanced naturalness and adaptability across diverse usage scenarios. However, the creation of high-quality annotated data for Task-Oriented Dialog~(TOD) is recognized to be slow and costly. To address these challenges, we introduce Task-Oriented Automatic Dialogs~(TOAD), a novel and scalable TOD dataset along with its automatic generation pipeline. The TOAD dataset simulates realistic app context interaction and provide a variety of system response style options. Two aspects of system response styles are considered, verbosity level and users' expression mirroring. We benchmark TOAD on two response generation tasks and the results show that modeling more verbose or responses without user expression mirroring is more challenging.
翻訳日:2024-02-16 14:35:42 公開日:2024-02-15
# 生物医学データのためのピアツーピアフェデレーション学習におけるフェデレーション戦略のベンチマーク

Benchmarking federated strategies in Peer-to-Peer Federated learning for biomedical data ( http://arxiv.org/abs/2402.10135v1 )

ライセンス: Link先を確認
Jose L. Salmeron, Irina Ar\'evalo, Antonio Ruiz-Celma(参考訳) データ保護とプライバシに関する要件の増大は、分散人工知能、特に独自のプライベートデータを持つ複数の参加者間のモデル構築を可能にする、新たなマシンラーニングアプローチであるフェデレーション学習に対する、大きな研究の関心を惹きつけている。 フェデレーション学習の最初の提案では、アーキテクチャは集中化され、集約はフェデレーション平均化(federated averaging)で行われました。 本研究は,ピアツーピア環境で異なるフェデレーション戦略をテストすることに焦点を当てている。 著者らは,参加者の貢献に基づくさまざまな要因と戦略を用いて,重み付け平均集約を含む,連合学習のための各種集約戦略を提案する。 戦略は、最も堅牢なものを特定するために、さまざまなデータサイズでテストされる。 本研究は,いくつかの生体医学的データセットを用いて戦略を検証し,実験結果から,精度に基づく重み付け平均が従来のフェデレーション平均法を上回っていることを示す。

The increasing requirements for data protection and privacy has attracted a huge research interest on distributed artificial intelligence and specifically on federated learning, an emerging machine learning approach that allows the construction of a model between several participants who hold their own private data. In the initial proposal of federated learning the architecture was centralised and the aggregation was done with federated averaging, meaning that a central server will orchestrate the federation using the most straightforward averaging strategy. This research is focused on testing different federated strategies in a peer-to-peer environment. The authors propose various aggregation strategies for federated learning, including weighted averaging aggregation, using different factors and strategies based on participant contribution. The strategies are tested with varying data sizes to identify the most robust ones. This research tests the strategies with several biomedical datasets and the results of the experiments show that the accuracy-based weighted average outperforms the classical federated averaging method.
翻訳日:2024-02-16 14:35:29 公開日:2024-02-15
# ゼロショット推論:コールドスタート問題のないパーソナライズされたコンテンツ生成

Zero-Shot Reasoning: Personalized Content Generation Without the Cold Start Problem ( http://arxiv.org/abs/2402.10133v1 )

ライセンス: Link先を確認
Davor Hafnar (1), Jure Dem\v{s}ar (1 and 2) ((1) Faculty of Computer and Information Science, University of Ljubljana (2) Department of Psychology, Faculty of Arts, University of Ljubljana)(参考訳) 手続き的コンテンツ生成はアルゴリズム技術を用いて、生産コストがはるかに低いゲーム用の大量の新しいコンテンツを作成する。 より新しいアプローチでは、手続き型コンテンツ生成は機械学習を利用する。 しかし、これらの手法は、通常、大量のデータを集め、非常に時間とコストのかかる、かなり複雑な学習モデルの開発と訓練を必要とする。 私たちの研究の核心は、大規模言語モデルによるより実用的で一般化可能なアプローチを通じて、パーソナライズされた手続き型コンテンツ生成の障壁を低くできるかどうかを検討することです。 ゲームのコンテンツとプレイヤーの好みを一致させることは、ゲームを楽しむプレイヤーと、収益化する前にゲームを楽しむプレイヤーにますます依存する開発者の両方にとって有益だ。 そこで本稿では,大規模言語モデルを用いて個別プレイヤーから連続的に収集されたゲームプレイデータに基づいて,個人化を実現するための新たな手法を提案する。 従来の手続き生成手法で生成したレベルと,このアプローチで生成したレベルを比較した。 我々の再現容易な手法は、従来の手法が生成した生産環境では有効であることが証明され、プレイヤーが中間レベルからゲームをやめない確率で性能が向上した。

Procedural content generation uses algorithmic techniques to create large amounts of new content for games at much lower production costs. In newer approaches, procedural content generation utilizes machine learning. However, these methods usually require expensive collection of large amounts of data, as well as the development and training of fairly complex learning models, which can be both extremely time-consuming and expensive. The core of our research is to explore whether we can lower the barrier to the use of personalized procedural content generation through a more practical and generalizable approach with large language models. Matching game content with player preferences benefits both players, who enjoy the game more, and developers, who increasingly depend on players enjoying the game before being able to monetize it. Therefore, this paper presents a novel approach to achieving personalization by using large language models to propose levels based on the gameplay data continuously collected from individual players. We compared the levels generated using our approach with levels generated with more traditional procedural generation techniques. Our easily reproducible method has proven viable in a production setting and outperformed levels generated by traditional methods in the probability that a player will not quit the game mid-level.
翻訳日:2024-02-16 14:35:10 公開日:2024-02-15
# Karhunen-Lo\`{e}ve展開による量子オプションの価格設定

Quantum option pricing via the Karhunen-Lo\`{e}ve expansion ( http://arxiv.org/abs/2402.10132v1 )

ライセンス: Link先を確認
Anupam Prakash, Yue Sun, Shouvanik Chakrabarti, Charlie Che, Aditi Dandapani, Dylan Herman, Niraj Kumar, Shree Hari Sureshbabu, Ben Wood, Iordanis Kerenidis, Marco Pistoia(参考訳) 基礎となる資産が幾何学的ブラウン運動によってモデル化される、t$監視ポイントよりも離散的に監視されたアジアオプションの価格設定の問題を考える。 我々は、T$の複素対数と1/\epsilon$の多項式を持つ2つの量子アルゴリズムを提供し、$\epsilon$は加法近似誤差である。 このアルゴリズムは、確率過程の指数化を可能にするブラウン運動の$o(\log t)$-qubit半デジタル量子エンコーディングと、半デジタルエンコーディングに触発された古典モンテカルロアルゴリズムの解析によってそれぞれ得られる。 このアプローチを用いて得られる最良の量子アルゴリズムは、複雑さ$\widetilde{O}(1/\epsilon^{3})$であり、$\widetilde{O}$は、T$と1/\epsilon$の係数を抑圧する。 本研究で提案される手法は, サブガウスプロセスのスムーズな機能によって, 基礎資産価格がモデル化され, 基礎資産価格の重み付け時間平均に依存する価格オプションに一般化する。

We consider the problem of pricing discretely monitored Asian options over $T$ monitoring points where the underlying asset is modeled by a geometric Brownian motion. We provide two quantum algorithms with complexity poly-logarithmic in $T$ and polynomial in $1/\epsilon$, where $\epsilon$ is the additive approximation error. Our algorithms are obtained respectively by using an $O(\log T)$-qubit semi-digital quantum encoding of the Brownian motion that allows for exponentiation of the stochastic process and by analyzing classical Monte Carlo algorithms inspired by the semi-digital encodings. The best quantum algorithm obtained using this approach has complexity $\widetilde{O}(1/\epsilon^{3})$ where the $\widetilde{O}$ suppresses factors poly-logarithmic in $T$ and $1/\epsilon$. The methods proposed in this work generalize to pricing options where the underlying asset price is modeled by a smooth function of a sub-Gaussian process and the payoff is dependent on the weighted time-average of the underlying asset price.
翻訳日:2024-02-16 14:34:52 公開日:2024-02-15
# 継続的学習は現実世界の課題に対応できているか?

Is Continual Learning Ready for Real-world Challenges? ( http://arxiv.org/abs/2402.10130v1 )

ライセンス: Link先を確認
Theodora Kontogianni, Yuanwen Yue, Siyu Tang, Konrad Schindler(参考訳) 継続的学習の長期的かつ確立された学術史にもかかわらず、現実のシナリオにおけるその応用は、かなり限定的なままである。 本稿では、このギャップは、継続学習の実際の課題と使用中の評価プロトコルの相違に起因し、提案手法が現実のセットアップの複雑さに対処するには効果がないことを主張する。 我々は,新しい3次元セマンティックセグメンテーションベンチマークOCL-3DSSを用いて,我々の仮説を検証し,現在までの進捗を評価する。 本研究では,実世界の動的シナリオ(ロボット工学や3d視覚応用など)に対して,オンラインおよび連続学習を必要とするより現実的なプロトコルを用いて,文献から様々な連続学習方式を検討する。 すべての考慮されたメソッドはパフォーマンスが悪く、共同オフライントレーニングの上限から著しく逸脱している。 これは、現実的な設定における既存のメソッドの適用性に関する疑問を提起する。 本稿は,実世界の状況をよりよくエミュレートし,この分野のブレークスルーを促進する新たな実験プロトコルを通じて,継続的な学習手法の採用を提唱するパラダイムシフトの開始を目指している。

Despite continual learning's long and well-established academic history, its application in real-world scenarios remains rather limited. This paper contends that this gap is attributable to a misalignment between the actual challenges of continual learning and the evaluation protocols in use, rendering proposed solutions ineffective for addressing the complexities of real-world setups. We validate our hypothesis and assess progress to date, using a new 3D semantic segmentation benchmark, OCL-3DSS. We investigate various continual learning schemes from the literature by utilizing more realistic protocols that necessitate online and continual learning for dynamic, real-world scenarios (eg., in robotics and 3D vision applications). The outcomes are sobering: all considered methods perform poorly, significantly deviating from the upper bound of joint offline training. This raises questions about the applicability of existing methods in realistic settings. Our paper aims to initiate a paradigm shift, advocating for the adoption of continual learning methods through new experimental protocols that better emulate real-world conditions to facilitate breakthroughs in the field.
翻訳日:2024-02-16 14:34:27 公開日:2024-02-15
# GES:高効率ラジアンスフィールドレンダリングのための一般化指数平滑化

GES: Generalized Exponential Splatting for Efficient Radiance Field Rendering ( http://arxiv.org/abs/2402.10128v1 )

ライセンス: Link先を確認
Abdullah Hamdi, Luke Melas-Kyriazi, Guocheng Qian, Jinjie Mai, Ruoshi Liu, Carl Vondrick, Bernard Ghanem, Andrea Vedaldi(参考訳) 3次元ガウススプラッティングの進歩は3次元再構成と生成を著しく加速させた。 しかし、大量のガウスを必要とする可能性があるため、かなりのメモリフットプリントが生成される。 本稿では,GES(Generalized Exponential Splatting)を提案する。GEF(Generalized Exponential Function)を用いて3次元シーンをモデル化し,シーンを表現する粒子をはるかに少なくする。 gesは原理1dと現実的な3dシーンの両方で理論的に実証的に検証される。 シャープエッジを持つ信号をより正確に表現することが示され、これはガウスの固有の低パス特性のため、通常困難である。 実験結果から,gefは自然に発生する信号(正方形,三角形,放物型信号など)に適合するガウス的信号よりも優れており,ガウス的スプラッティングのメモリフットプリントを増大させるような広範囲な分割操作の必要性を低減できることが示された。 周波数変調損失の助けを借りて、GESはガウススプラッティングの記憶容量の半分未満を必要とせず、レンダリング速度を最大39%向上させながら、新規ビュー合成ベンチマークにおける競合性能を達成する。 コードはプロジェクトのwebサイトhttps://abdullahamdi.com/gesで入手できる。

Advancements in 3D Gaussian Splatting have significantly accelerated 3D reconstruction and generation. However, it may require a large number of Gaussians, which creates a substantial memory footprint. This paper introduces GES (Generalized Exponential Splatting), a novel representation that employs Generalized Exponential Function (GEF) to model 3D scenes, requiring far fewer particles to represent a scene and thus significantly outperforming Gaussian Splatting methods in efficiency with a plug-and-play replacement ability for Gaussian-based utilities. GES is validated theoretically and empirically in both principled 1D setup and realistic 3D scenes. It is shown to represent signals with sharp edges more accurately, which are typically challenging for Gaussians due to their inherent low-pass characteristics. Our empirical analysis demonstrates that GEF outperforms Gaussians in fitting natural-occurring signals (e.g. squares, triangles, and parabolic signals), thereby reducing the need for extensive splitting operations that increase the memory footprint of Gaussian Splatting. With the aid of a frequency-modulated loss, GES achieves competitive performance in novel-view synthesis benchmarks while requiring less than half the memory storage of Gaussian Splatting and increasing the rendering speed by up to 39%. The code is available on the project website https://abdullahamdi.com/ges .
翻訳日:2024-02-16 14:34:05 公開日:2024-02-15
# ディープニューラルネットワークにおける非線形スパイク共分散行列と信号伝搬

Nonlinear spiked covariance matrices and signal propagation in deep neural networks ( http://arxiv.org/abs/2402.10127v1 )

ライセンス: Link先を確認
Zhichao Wang, Denny Wu, Zhou Fan(参考訳) 多くの最近の研究は、フィードフォワードニューラルネットワークの非線形特徴写像によって定義される共役核(CK)の固有値スペクトルを研究している。 しかし、既存の結果は経験的固有値分布の弱い収束のみを確立し、学習問題の低次元信号構造をしばしば捉える「スパイク」固有値と固有ベクトルの正確な量的特徴付けを提供していない。 本研究では,ckを特別に含むスパイク共分散モデルの非線形バージョンに対して,これらの信号固有値と固有ベクトルを特徴付ける。 この一般的な結果を用いて,入力データのスパイク固有構造がランダム重み付きニューラルネットワークの隠れた層を伝搬する様子を定量的に記述する。 第2の応用として、重み行列が訓練中にランク1信号成分を発達させ、テストデータ上でCKのスパイク固有ベクトルとターゲット関数のアライメントを特徴付ける単純な表現学習方式を提案する。

Many recent works have studied the eigenvalue spectrum of the Conjugate Kernel (CK) defined by the nonlinear feature map of a feedforward neural network. However, existing results only establish weak convergence of the empirical eigenvalue distribution, and fall short of providing precise quantitative characterizations of the ''spike'' eigenvalues and eigenvectors that often capture the low-dimensional signal structure of the learning problem. In this work, we characterize these signal eigenvalues and eigenvectors for a nonlinear version of the spiked covariance model, including the CK as a special case. Using this general result, we give a quantitative description of how spiked eigenstructure in the input data propagates through the hidden layers of a neural network with random weights. As a second application, we study a simple regime of representation learning where the weight matrix develops a rank-one signal component over training and characterize the alignment of the target function with the spike eigenvector of the CK on test data.
翻訳日:2024-02-16 14:33:36 公開日:2024-02-15
# 変圧器のGELU計算用ソフトマックスハードウェアユニットの再利用

Reusing Softmax Hardware Unit for GELU Computation in Transformers ( http://arxiv.org/abs/2402.10118v1 )

ライセンス: Link先を確認
Christodoulos Peltekis, Kosmas Alexandridi, Giorgos Dimitrakopoulos(参考訳) トランスフォーマーは自然言語処理(NLP)とコンピュータビジョンアプリケーションの性能を大幅に改善した。 変換器の計算には行列乗算やソフトマックスやGELU (Gaussion Error Linear Unit) などの非線形活性化関数が含まれ、ハードウェア上で直接高速化される。 現在、機能評価は各機能ごとに個別に行われており、ハードウェアの再利用はまれである。 この問題を軽減するために,GELUの計算をソフトマックス演算子にマップする。 このように、既にソフトマックス用に設計された効率的なハードウェアユニットはGELUの計算にも再利用できる。 GELUの計算はソフトマックスの固有ベクトル化の性質を享受し、並列に複数のGELU結果を生成することができる。 実験結果からGELU計算は,既存のソフトマックスハードウェアユニットをインクリメンタルに修正した。 (a)代表NLPアプリケーションの精度を低下させません。 (b) ハードウェア全体の面積と電力をそれぞれ平均で6.1%、11.9%削減することができる。

Transformers have improved drastically the performance of natural language processing (NLP) and computer vision applications. The computation of transformers involves matrix multiplications and non-linear activation functions such as softmax and GELU (Gaussion Error Linear Unit) that are accelerated directly in hardware. Currently, function evaluation is done separately for each function and rarely allows for hardware reuse. To mitigate this problem, in this work, we map the computation of GELU to a softmax operator. In this way, the efficient hardware units designed already for softmax can be reused for computing GELU as well. Computation of GELU can enjoy the inherent vectorized nature of softmax and produce in parallel multiple GELU outcomes. Experimental results show that computing GELU via a pre-existing and incrementally modified softmax hardware unit (a) does not reduce the accuracy of representative NLP applications and (b) allows the reduction of the overall hardware area and power by 6.1% and 11.9%, respectively, on average.
翻訳日:2024-02-16 14:33:18 公開日:2024-02-15
# トランスフォーマーエンコーダを用いた脳波エンコーダとGANを用いた脳波記録からの視覚刺激の生成

Generating Visual Stimuli from EEG Recordings using Transformer-encoder based EEG encoder and GAN ( http://arxiv.org/abs/2402.10115v1 )

ライセンス: Link先を確認
Rahul Mishra, Arnav Bhavsar(参考訳) 本研究では,脳波信号からの画像の合成を,対向的な深層学習フレームワークを用いて行うことで,知覚脳復号の分野における最新の研究課題に取り組む。 本研究の目的は、被験者が画像を見たときに得られる脳波記録を利用して、様々な対象カテゴリに属する画像を再現することである。 そこで我々は、Transformer-EncoderベースのEEGエンコーダを用いて、GANネットワークのジェネレータコンポーネントへの入力としてEEGエンコーダを生成する。 また, 対向的損失に加えて, 知覚的損失を取り入れ, 生成画像の品質向上を図る。

In this study, we tackle a modern research challenge within the field of perceptual brain decoding, which revolves around synthesizing images from EEG signals using an adversarial deep learning framework. The specific objective is to recreate images belonging to various object categories by leveraging EEG recordings obtained while subjects view those images. To achieve this, we employ a Transformer-encoder based EEG encoder to produce EEG encodings, which serve as inputs to the generator component of the GAN network. Alongside the adversarial loss, we also incorporate perceptual loss to enhance the quality of the generated images.
翻訳日:2024-02-16 14:33:04 公開日:2024-02-15
# 生体磁気検出のための光学式磁気勾配計

An optically pumped magnetic gradiometer for the detection of human biomagnetism ( http://arxiv.org/abs/2402.10113v1 )

ライセンス: Link先を確認
Harry Cook, Yulia Bezsudnova, Lari M. Koponen, Ole Jensen, Giovanni Barontini, Anna U. Kowalczyk(参考訳) 非線形磁気光学回転に基づく固有光ポンピング磁気放射計を実現する。 センサは18$\text{ft}/\text{cm}/\sqrt{\text{hz}}$のグラディメトリック感度に達し、最大30dbの減衰で共通のモード均質な磁場ノイズを拒否できることを示した。 生体磁気応用において, 磁界gradiometerは十分に感度が高く, 弾力性があることを実証する。 特に、人間の脳の聴覚誘発反応を記録でき、外部磁場障害の存在下でリアルタイムの心磁図を行うことができる。 我々のグラディメータは、光学式ポンピング磁気センサにヒトの生体磁気センサを補完する機能を提供し、ヒトの生体磁気検出に新たな道を開く。

We realise an intrinsic optically pumped magnetic gradiometer based on non-linear magneto-optical rotation. We show that our sensor can reach a gradiometric sensitivity of 18 $\text{fT}/\text{cm}/\sqrt{\text{Hz}}$ and can reject common mode homogeneous magnetic field noise with up to 30 dB attenuation. We demonstrate that our magnetic field gradiometer is sufficiently sensitive and resilient to be employed in biomagnetic applications. In particular, we are able to record the auditory evoked response of the human brain, and to perform real-time magnetocardiography in the presence of external magnetic field disturbances. Our gradiometer provides complementary capabilities in human biomagnetic sensing to optically pumped magnetometers, and opens new avenues in the detection of human biomagnetism.
翻訳日:2024-02-16 14:32:51 公開日:2024-02-15
# 学生が選択した LLM 指導用データリサイクル

Selective Reflection-Tuning: Student-Selected Data Recycling for LLM Instruction-Tuning ( http://arxiv.org/abs/2402.10110v1 )

ライセンス: Link先を確認
Ming Li, Lichang Chen, Jiuhai Chen, Shwai He, Jiuxiang Gu, Tianyi Zhou(参考訳) インストラクションチューニングは、より優れたインストラクション追従とタスク適応能力を達成するために大きな言語モデル(LLM)にとって重要であるが、その成功はトレーニングデータの品質に大きく依存している。 最近の多くの手法はデータ品質の改善に重点を置いているが、学生モデルとの互換性を見落としていることが多い。 本稿では,教師のLLMのリフレクションとイントロスペクションを相乗化して既存のデータ品質を学生のLLMのデータ選択能力で向上させる新しいパラダイムであるSelective Reflection-Tuningを紹介する。 この教師と教師のコラボレーションは、高品質で学生と互換性のある命令-応答ペアを生み出し、結果としてサンプル効率の良い命令チューニングと優れたパフォーマンスのllmを生み出します。 Selective Reflection-Tuningは、新しいデータを集めることなく、LLMの微調整と自己改善を改善するデータ拡張と合成である。 本手法をAlpaca と WizardLM のデータに適用し,より強力で最上位の 7B と 13B の LLM を実現する。 私たちのコード、モデル、データはhttps://github.com/tianyi-lab/Reflection_Tuning.comでリリースされます。

Instruction tuning is critical to large language models (LLMs) for achieving better instruction following and task adaptation capabilities but its success heavily relies on the training data quality. Many recent methods focus on improving the data quality but often overlook the compatibility of the data with the student model being finetuned. This paper introduces Selective Reflection-Tuning, a novel paradigm that synergizes a teacher LLM's reflection and introspection for improving existing data quality with the data selection capability of the student LLM, to automatically refine existing instruction-tuning data. This teacher-student collaboration produces high-quality and student-compatible instruction-response pairs, resulting in sample-efficient instruction tuning and LLMs of superior performance. Selective Reflection-Tuning is a data augmentation and synthesis that generally improves LLM finetuning and self-improvement without collecting brand-new data. We apply our method to Alpaca and WizardLM data and achieve much stronger and top-tier 7B and 13B LLMs. Our codes, models, and data will be released at https://github.com/tianyi-lab/Reflection_Tuning.
翻訳日:2024-02-16 14:32:38 公開日:2024-02-15
# 機械学習電子構造の自己一貫性検証

Self-consistent Validation for Machine Learning Electronic Structure ( http://arxiv.org/abs/2402.10186v1 )

ライセンス: Link先を確認
Gengyuan Hu, Gengchen Wei, Zekun Lou, Philip H.S. Torr, Wanli Ouyang, Han-sen Zhong, Chen Lin(参考訳) 機械学習は電子構造問題に効果的に取り組むための重要なアプローチとして登場した。 可能性を秘めているが、実世界のシナリオでアプリケーションを妨げる、未認識のデータに一般化する保証は少ない。 この問題に対処するために,予測の精度を推定する手法が提案されている。 この手法は、機械学習と自己整合フィールド法を統合し、低い検証コストと解釈可能性の両方を達成する。 これにより、積極的学習によるモデルの能力の探索が可能となり、実際の研究への統合への信頼がもたらされる。

Machine learning has emerged as a significant approach to efficiently tackle electronic structure problems. Despite its potential, there is less guarantee for the model to generalize to unseen data that hinders its application in real-world scenarios. To address this issue, a technique has been proposed to estimate the accuracy of the predictions. This method integrates machine learning with self-consistent field methods to achieve both low validation cost and interpret-ability. This, in turn, enables exploration of the model's ability with active learning and instills confidence in its integration into real-world studies.
翻訳日:2024-02-16 14:26:57 公開日:2024-02-15
# rlhfにおける情報構造再考:グラフ理論の観点からの報酬一般化

Rethinking Information Structures in RLHF: Reward Generalization from a Graph Theory Perspective ( http://arxiv.org/abs/2402.10184v1 )

ライセンス: Link先を確認
Tianyi Qiu, Fanzhi Zeng, Jiaming Ji, Dong Yan, Kaile Wang, Jiayi Zhou, Han Yang, Josef Dai, Xuehai Pan, Yaodong Yang(参考訳) ヒューマンフィードバック(RLHF)からの強化学習には、高度に多様なコンテキスト、低ラベリングコスト、信頼性のあるアライメントパフォーマンスの不適合性がある。 本稿では,報酬モデリングにおけるデータセット情報構造の設計を通じて,このような非互換性を緩和することを目的とする。 具体的には,まずrlhfプロセスを再検討し,テキスト分布上の自動エンコーディングプロセスとして表現する理論的枠組みを提案する。 我々のフレームワークは、人間の好みと大規模言語モデル(LLM)の振る舞いの分布整合性を保証するというRLHFの目的を定式化する。 この枠組みに基づいて、RLHFの報酬モデリング段階における情報構造の性能への影響を体系的に検討する。 報酬モデリング段階における報酬一般化をさらに理解するために,意味空間の一般化をモデル化するランダムグラフ理論に基づく新しい手法を提案する。 本分析の重要な知見は,従来のrlhf法で採用されている連鎖型ベースラインと比較して,報酬モデリングにおける木型情報構造の優位性である。 限られたデータを持つ非常に複雑なコンテキスト下では、木ベースの報酬モデル(RM)は、$n$がデータセットサイズであるチェーンベースのRMよりも最大$\Theta(\log n/\log\log n)$の分散を誘導する。 理論的寄与を検証するため,木系RMは3つの異なるNLPタスクにおいて,チェーン系ベースラインに対して平均65%の勝利率を達成した。 今後は、私たちのフレームワークが、目標の誤一般化を理解するためのステップになることを期待します。

There is a trilemma in reinforcement learning from human feedback (RLHF): the incompatibility between highly diverse contexts, low labeling cost, and reliable alignment performance. Here we aim to mitigate such incompatibility through the design of dataset information structures during reward modeling. Specifically, we first reexamine the RLHF process and propose a theoretical framework portraying it as an autoencoding process over text distributions. Our framework formalizes the RLHF objective of ensuring distributional consistency between human preference and large language model (LLM) behavior. Building on this framework, we then systematically investigate the performance impact of information structure in the reward modeling stage of RLHF. To further understand reward generalization in the reward modeling stage, we introduce a new method based on random graph theory that models generalization in the semantic space. A key insight of our analysis is the superiority of the tree-based information structure in reward modeling, compared to chain-based baselines adopted by conventional RLHF methods. We derive that under highly complex contexts with limited data, the tree-based reward model (RM) induces up to $\Theta(\log n/\log\log n)$ times less variance than chain-based RM where $n$ is the dataset size. To validate our theoretical contribution, we demonstrate that on three different NLP tasks, the tree-based RM achieves 65% win rate on average against chain-based baselines. Looking forward, we hope our framework can serve as a step towards understanding goal misgeneralization.
翻訳日:2024-02-16 14:26:48 公開日:2024-02-15
# 量子磁気」からランダム性を抽出する

Extracting randomness from quantum 'magic' ( http://arxiv.org/abs/2402.10181v1 )

ライセンス: Link先を確認
Christopher Vairogs, Bin Yan(参考訳) マジックは、フォールトトレラント量子計算において重要な役割を果たす量子状態の臨界特性である。 同時に、ランダム状態は現代の量子科学における様々なランダム化手法の重要な要素として現れてきた。 本研究では,これら2つの概念の直接的関係性を確立する。 より具体的には、量子状態のサブシステムが測定されると、未測定のサブシステムの投影されたアンサンブルは、基底状態の固有の「魔法」によって強化される高いランダム性を示す。 この関係を量子状態 2-設計に対して厳密に示し,高次量子設計の妥当性を裏付ける説得力のある数値証拠を示す。 本研究は,ランダム量子状態を生成するための資源としてマジックを活用するための効率的な手法を提案する。

Magic is a critical property of quantum states that plays a pivotal role in fault-tolerant quantum computation. Simultaneously, random states have emerged as a key element in various randomized techniques within contemporary quantum science. In this study, we establish a direct connection between these two notions. More specifically, our research demonstrates that when a subsystem of a quantum state is measured, the resultant projected ensemble of the unmeasured subsystem can exhibit a high degree of randomness that is enhanced by the inherent 'magic' of the underlying state. We demonstrate this relationship rigorously for quantum state 2-designs, and present compelling numerical evidence to support its validity for higher-order quantum designs. Our findings suggest an efficient approach for leveraging magic as a resource to generate random quantum states.
翻訳日:2024-02-16 14:26:23 公開日:2024-02-15
# TDAG:動的タスク分解とエージェント生成に基づくマルチエージェントフレームワーク

TDAG: A Multi-Agent Framework based on Dynamic Task Decomposition and Agent Generation ( http://arxiv.org/abs/2402.10178v1 )

ライセンス: Link先を確認
Yaoxiang Wang, Zhiyong Wu, Junfeng Yao, Jinsong Su(参考訳) ChatGPTのような大規模言語モデル(LLM)の出現は、複雑な現実世界のタスクに対処できるLLMベースのエージェントの開発にインスピレーションを与えた。 しかしながら、これらのエージェントは、エラー伝搬や適応性の制限など、方法論上の制約のためにタスク実行中に苦労することが多い。 本稿では,動的タスク分解・エージェント生成(TDAG)に基づくマルチエージェントフレームワークを提案する。 このフレームワークは複雑なタスクをより小さなサブタスクに動的に分解し、それぞれのタスクを特定の生成サブエージェントに割り当てる。 同時に、既存のベンチマークは複雑なマルチステップタスクの漸進的な進捗を評価するのに必要な粒度を欠いていることが多い。 そこで,我々は旅行計画の文脈において,細粒度評価システムと相互に連携し,段階的に複雑なタスクを特徴とするitinerarybenchを紹介する。 ItineraryBenchは、さまざまな複雑さのタスク間でのメモリ、計画、ツール使用量のエージェントの能力を評価するように設計されている。 実験結果から,TDAGは確立されたベースラインを著しく上回り,複雑なタスクシナリオにおいて優れた適応性とコンテキスト認識を示すことがわかった。

The emergence of Large Language Models (LLMs) like ChatGPT has inspired the development of LLM-based agents capable of addressing complex, real-world tasks. However, these agents often struggle during task execution due to methodological constraints, such as error propagation and limited adaptability. To address this issue, we propose a multi-agent framework based on dynamic Task Decomposition and Agent Generation (TDAG). This framework dynamically decomposes complex tasks into smaller subtasks and assigns each to a specifically generated subagent, thereby enhancing adaptability in diverse and unpredictable real-world tasks. Simultaneously, existing benchmarks often lack the granularity needed to evaluate incremental progress in complex, multi-step tasks. In response, we introduce ItineraryBench in the context of travel planning, featuring interconnected, progressively complex tasks with a fine-grained evaluation system. ItineraryBench is designed to assess agents' abilities in memory, planning, and tool usage across tasks of varying complexity. Our experimental results reveal that TDAG significantly outperforms established baselines, showcasing its superior adaptability and context awareness in complex task scenarios.
翻訳日:2024-02-16 14:26:10 公開日:2024-02-15
# 強化学習による大規模制約クラスタリング

Large Scale Constrained Clustering With Reinforcement Learning ( http://arxiv.org/abs/2402.10177v1 )

ライセンス: Link先を確認
Benedikt Schesch, Marco Caserta(参考訳) ネットワークが与えられた場合、各ノードではなくクラスタレベルでリソースを割り当てると、リソースの割り当てと使用効率が向上する。 本稿では,クラスタ間距離を最小化し,クラスタに割り当てられたノード数を最大化すると同時に,クラスタ内の2つのノードがしきい値距離を超えないようにする。 問題はバイナリ線形モデルで簡単に定式化できるが、大規模なインスタンスを扱う場合、従来の組合せ最適化は困難である。 本稿では,強化学習による制約付きクラスタリング問題の解法を提案する。 提案手法は, 最適解と最適解の両方を生成するようにエージェントを訓練することを含む。 エージェントは、このタスクで遭遇したインスタンスに合わせて、問題固有のヒューリスティックスを学ぶ。 結果の節では,大規模インスタンスにおいても,アルゴリズムが最適に近い解を見つけることを示す。

Given a network, allocating resources at clusters level, rather than at each node, enhances efficiency in resource allocation and usage. In this paper, we study the problem of finding fully connected disjoint clusters to minimize the intra-cluster distances and maximize the number of nodes assigned to the clusters, while also ensuring that no two nodes within a cluster exceed a threshold distance. While the problem can easily be formulated using a binary linear model, traditional combinatorial optimization solvers struggle when dealing with large-scale instances. We propose an approach to solve this constrained clustering problem via reinforcement learning. Our method involves training an agent to generate both feasible and (near) optimal solutions. The agent learns problem-specific heuristics, tailored to the instances encountered in this task. In the results section, we show that our algorithm finds near optimal solutions, even for large scale instances.
翻訳日:2024-02-16 14:25:49 公開日:2024-02-15
# OpenMath Instruct-1:1.8万の数学命令チューニングデータセット

OpenMathInstruct-1: A 1.8 Million Math Instruction Tuning Dataset ( http://arxiv.org/abs/2402.10176v1 )

ライセンス: Link先を確認
Shubham Toshniwal, Ivan Moshkov, Sean Narenthiran, Daria Gitman, Fei Jia, Igor Gitman(参考訳) 最近の研究は、大規模言語モデル(LLM)の訓練、特にターゲットとするスキル獲得のための合成データセットの膨大な可能性を示している。 現在、MetaMathQA (Yu et al., 2024) やMAmmoTH (Yue et al., 2024) のような大規模数学指導用チューニングデータセットは、商業的に制限されたライセンスを持つクローズドソース LLM の出力を用いて構築されている。 これらのデータ生成パイプラインにおけるオープンソースLLMの使用を制限する重要な理由は、GPT-4のような最高のクローズドソースLLMの数学的スキルと、最高のオープンソースLLMとの幅広いギャップである。 オープンソースLLMの最近の進歩,提案する新規性,ブルートフォーススケーリングに基づいて,1.8M問題解対を持つ算数指導チューニングデータセットOpenMath Instruct-1を構築した。 このデータセットは、最近リリースされたMixtralモデルを使用して、2つの人気のある数学推論ベンチマークであるGSM8KとMATHのコード解釈ソリューションを合成して構築されている。 ベストモデルであるOpenMath-CodeLlama-70Bは、OpenMath Instruct-1のサブセットでトレーニングされ、GSM8Kで84.6%、MATHで50.7%のスコアを得た。 コード、モデル、OpenMathInstruct-1データセットを商業的に許容されるライセンスでリリースしています。

Recent work has shown the immense potential of synthetically generated datasets for training large language models (LLMs), especially for acquiring targeted skills. Current large-scale math instruction tuning datasets such as MetaMathQA (Yu et al., 2024) and MAmmoTH (Yue et al., 2024) are constructed using outputs from closed-source LLMs with commercially restrictive licenses. A key reason limiting the use of open-source LLMs in these data generation pipelines has been the wide gap between the mathematical skills of the best closed-source LLMs, such as GPT-4, and the best open-source LLMs. Building on the recent progress in open-source LLMs, our proposed prompting novelty, and some brute-force scaling, we construct OpenMathInstruct-1, a math instruction tuning dataset with 1.8M problem-solution pairs. The dataset is constructed by synthesizing code-interpreter solutions for GSM8K and MATH, two popular math reasoning benchmarks, using the recently released and permissively licensed Mixtral model. Our best model, OpenMath-CodeLlama-70B, trained on a subset of OpenMathInstruct-1, achieves a score of 84.6% on GSM8K and 50.7% on MATH, which is competitive with the best gpt-distilled models. We release our code, models, and the OpenMathInstruct-1 dataset under a commercially permissive license.
翻訳日:2024-02-16 14:25:35 公開日:2024-02-15
# 場媒介unruh-dewitt量子ビットを用いたユニバーサル量子コンピューティング

Universal Quantum Computing with Field-Mediated Unruh--DeWitt Qubits ( http://arxiv.org/abs/2402.10173v1 )

ライセンス: Link先を確認
Eric Aspling and Michael Lawler(参考訳) 普遍的な量子ゲートの集合は量子コンピューティング理論の重要な部分であるが、相対論的量子情報(RQI)の発展理論には欠落している。 しかし、unruh-dewitt(udw)検出器形式は量子ビットと量子場のユニタリゲートに高めることができ、相互情報、コヒーレント情報、場の媒介量子チャネルの量子容量といった量子シャノン理論におけるrqi応用を可能にした。 近年、UDW型量子ビットの実験的な実現が2次元量子材料で提案されているが、量子通信や計算を含む量子技術としての価値はまだ明らかになっていない。 2量子ビットcnotゲートに匹敵する qubit と field の間の制御ユニタリな udw 論理ゲートを導入する。 次に、この形式を拡張して量子状態移動(QST)(2つのCNOTゲート)とSWAP(3つのCNOTゲート)チャネルを示す。 量子チャネル間の識別性の尺度であるダイヤモンド距離を用いて,これらの量子演算ゲートの性能を示す。 ダイヤモンド距離などの識別性尺度は、udw検出器によるフィールド媒介変換と局所量子力学的操作の厳密な比較を可能にし、量子技術応用におけるudw検出器の性能を定量化する。 制御単位量子場相互作用を用いて、CNOTゲートの正確な形式を定義する。 この手法により、ハダマール$H$、$S$、および$T$ゲートに関連する量子場による単一量子ビット演算も定義する。 したがって、簡単な設定でudw検出器は、普遍的な量子コンピューティングを提供するためのゲートの集合を可能にする。

A set of universal quantum gates is a vital part of the theory of quantum computing, but is absent in the developing theory of Relativistic Quantum Information (RQI). Yet, the Unruh--DeWitt (UDW) detector formalism can be elevated to unitary gates between qubits and quantum fields and has allowed RQI applications in quantum Shannon theory, such as mutual information, coherent information, and quantum capacity in field-mediated quantum channels. Recently, experimental realizations of UDW-style qubits have been proposed in two-dimensional quantum materials, but their value as a quantum technology, including quantum communication and computation, is not yet clear, especially since fields introduce many avenues for decoherence. We introduce controlled-unitary UDW logic gates between qubit and field that are comparable to the two-qubit CNOT gate. We then extend this formalism to demonstrate Quantum State Transfer (QST) (two CNOT gates) and SWAP (three CNOT gates) channels. We illustrate the performance of these quantum operation gates with the diamond distance, a measure of distinguishability between quantum channels. Distinguishability measures like diamond distance allow for a rigorous comparison between field-mediated transduction through UDW detectors and local quantum mechanical operations and so quantify the performance of UDW detectors in quantum technological applications. Using the controlled-unitary qubit-field interactions we define an exact form of the CNOT gate. With this technique we also define quantum field-mediated single qubit operations associated with the Hadamard $H$, the $S$, and $T$ gates. Thus, UDW detectors in simple settings enable a collection of gates known to provide universal quantum computing.
翻訳日:2024-02-16 14:25:07 公開日:2024-02-15
# OptiMUS: (MI)LPソルバーと大規模言語モデルによるスケーラブルな最適化モデリング

OptiMUS: Scalable Optimization Modeling with (MI)LP Solvers and Large Language Models ( http://arxiv.org/abs/2402.10172v1 )

ライセンス: Link先を確認
Ali AhmadiTeshnizi, Wenzhi Gao, Madeleine Udell(参考訳) 最適化問題は製造や流通から医療まで幅広い分野に及んでいる。 しかし、これらの問題の多くは、最適化ツールや技術の普及が制限されるため、最先端の問題解決者によって最適ではなく、手動で解決される。 本稿では,自然言語記述から線形計画問題(混合整数)を定式化し,解くように設計された大規模言語モデル(llm)に基づくエージェントoptimusを提案する。 OptiMUSは、数学的モデルを開発し、ソルバコードを書き、デバッグし、生成したソリューションを評価し、これらの評価に基づいてモデルとコードを改善することができる。 OptiMUSはモジュール構造を利用して問題を処理し、長い記述や複雑なデータを長いプロンプトなしで処理することができる。 実験によると、optimusは、簡単なデータセットで既存の最先端のメソッドを20〜%$以上、ハードデータセット(この論文でリリースされた新しいデータセット、nlp4lpを含む)で30〜%$以上上回っている。

Optimization problems are pervasive in sectors from manufacturing and distribution to healthcare. However, most such problems are still solved heuristically by hand rather than optimally by state-of-the-art solvers because the expertise required to formulate and solve these problems limits the widespread adoption of optimization tools and techniques. This paper introduces OptiMUS, a Large Language Model (LLM)-based agent designed to formulate and solve (mixed integer) linear programming problems from their natural language descriptions. OptiMUS can develop mathematical models, write and debug solver code, evaluate the generated solutions, and improve its model and code based on these evaluations. OptiMUS utilizes a modular structure to process problems, allowing it to handle problems with long descriptions and complex data without long prompts. Experiments demonstrate that OptiMUS outperforms existing state-of-the-art methods on easy datasets by more than $20\%$ and on hard datasets (including a new dataset, NLP4LP, released with this paper that features long and complex problems) by more than $30\%$.
翻訳日:2024-02-16 14:24:24 公開日:2024-02-15
# 言語モデルを128kコンテキストにスケールアップするためのデータエンジニアリング

Data Engineering for Scaling Language Models to 128K Context ( http://arxiv.org/abs/2402.10171v1 )

ライセンス: Link先を確認
Yao Fu, Rameswar Panda, Xinyao Niu, Xiang Yue, Hannaneh Hajishirzi, Yoon Kim and Hao Peng(参考訳) 言語モデルのコンテキスト長を128kまでスケールアップするための継続的事前学習レシピを,データエンジニアリングを中心に検討した。 長いコンテキストモデリング、特に \textit{the ability to use information at any input locations} は、主に大規模事前トレーニングによって既に獲得されている機能であり、この能力は、適切なデータ混合上での軽量な連続的事前トレーニングを通じて、トレーニング中(例えば、4kから128k)において、かなり長いコンテキストに拡張できると仮定する。 本研究では, 連続事前学習のためのデータの「textit{quantity}」と「textit{quality}」について検討する。(1) 量について, 5億~50億個のトークンが, 128Kコンテキスト内であればどこでも情報を検索できることを示す;(2) 品質についても同様に「textit{domain balance}」と「textit{length upsampling}」が強調される。 具体的には、本のような特定のドメインのより長いデータ、つまり既存の作業の一般的な実践は、最適以下のパフォーマンスをもたらし、バランスの取れたドメインの混合が重要であることに気付きます。 このようなデータの1B-5Bトークン上でのフルモデルの連続事前学習は、言語モデルの文脈長を128Kに拡張するための効果的で安価な戦略であることを示す。 我々のレシピは強力なオープンソース長文モデルより優れており、GPT-4 128Kのようなフロンティアモデルとのギャップを埋めている。

We study the continual pretraining recipe for scaling language models' context lengths to 128K, with a focus on data engineering. We hypothesize that long context modeling, in particular \textit{the ability to utilize information at arbitrary input locations}, is a capability that is mostly already acquired through large-scale pretraining, and that this capability can be readily extended to contexts substantially longer than seen during training~(e.g., 4K to 128K) through lightweight continual pretraining on appropriate data mixture. We investigate the \textit{quantity} and \textit{quality} of the data for continual pretraining: (1) for quantity, we show that 500 million to 5 billion tokens are enough to enable the model to retrieve information anywhere within the 128K context; (2) for quality, our results equally emphasize \textit{domain balance} and \textit{length upsampling}. Concretely, we find that naively upsampling longer data on certain domains like books, a common practice of existing work, gives suboptimal performance, and that a balanced domain mixture is important. We demonstrate that continual pretraining of the full model on 1B-5B tokens of such data is an effective and affordable strategy for scaling the context length of language models to 128K. Our recipe outperforms strong open-source long-context models and closes the gap to frontier models like GPT-4 128K.
翻訳日:2024-02-16 14:23:51 公開日:2024-02-15
# deepsrgm --深層学習によるインド古典音楽のシーケンス分類とランク付け

DeepSRGM -- Sequence Classification and Ranking in Indian Classical Music with Deep Learning ( http://arxiv.org/abs/2402.10168v1 )

ライセンス: Link先を確認
Sathwik Tejaswi Madhusudhan and Girish Chowdhary(参考訳) インド古典音楽(ICM)の重要な側面はラガであり、作曲と即興のメロディックな枠組みとして機能している。 raga認識は、音楽レコメンデーションから巨大な音楽コレクションの整理まで、多くの下流アプリケーションを支援するため、icmにおいて重要な音楽情報検索タスクである。 本研究では,ラーガ認識に対する深層学習に基づくアプローチを提案する。 提案手法では,Long Short Term Memory based Recurrent Neural Networks (LSTM-RNN) を用いて,音楽データの時間的シーケンスを効率的に保持し,学習する。 最終的な推論が音声全体で行われる間、元の音声からサンプリングされた小さなシーケンスでネットワークを訓練し、テストする。 提案手法は,Comp Music Carnatic データセットと 10 Raga サブセットの推測において,88.1% と 97 % の精度を達成し,Raga 認識タスクの最先端化を実現している。 提案手法では,提案したクエリシーケンスと密接に関連している音楽データベースからメロディックパターンの検索を支援するシーケンスランキングも実現している。

A vital aspect of Indian Classical Music (ICM) is Raga, which serves as a melodic framework for compositions and improvisations alike. Raga Recognition is an important music information retrieval task in ICM as it can aid numerous downstream applications ranging from music recommendations to organizing huge music collections. In this work, we propose a deep learning based approach to Raga recognition. Our approach employs efficient pre possessing and learns temporal sequences in music data using Long Short Term Memory based Recurrent Neural Networks (LSTM-RNN). We train and test the network on smaller sequences sampled from the original audio while the final inference is performed on the audio as a whole. Our method achieves an accuracy of 88.1% and 97 % during inference on the Comp Music Carnatic dataset and its 10 Raga subset respectively making it the state-of-the-art for the Raga recognition task. Our approach also enables sequence ranking which aids us in retrieving melodic patterns from a given music data base that are closely related to the presented query sequence.
翻訳日:2024-02-16 14:22:41 公開日:2024-02-15
# ランダム特徴と多項式規則

Random features and polynomial rules ( http://arxiv.org/abs/2402.10164v1 )

ライセンス: Link先を確認
Fabi\'an Aguirre-L\'opez, Silvio Franz, Mauro Pastore(参考訳) ランダム特徴モデルは、ニューラルネットワークの無限幅限界に近い振る舞いを記述する深層学習理論において際立った役割を果たす。 本稿では,ガウスデータを用いた汎用教師付き学習問題に対するランダム特徴モデルの一般化性能を徹底的に解析する。 私たちのアプローチは、無秩序システムの統計力学のツールを使って構築され、ランダム特徴モデルを等価多項式モデルにマッピングし、平均一般化曲線を問題の2つの主要な制御パラメータの関数としてプロットすることができます。 我々の結果は、$N$、$P$および$D$の間の比例スケーリングのケースを拡張した。 これらは特定の学習タスクで知られている厳密な境界に従っており、N$とP$の様々な桁の数値実験と定量的に一致している。 我々はまた、$D\to \infty$ と $P/D^K$, $N/D^L$ の間の少なくとも一方が有限である漸近的極限から遠く離れている。

Random features models play a distinguished role in the theory of deep learning, describing the behavior of neural networks close to their infinite-width limit. In this work, we present a thorough analysis of the generalization performance of random features models for generic supervised learning problems with Gaussian data. Our approach, built with tools from the statistical mechanics of disordered systems, maps the random features model to an equivalent polynomial model, and allows us to plot average generalization curves as functions of the two main control parameters of the problem: the number of random features $N$ and the size $P$ of the training set, both assumed to scale as powers in the input dimension $D$. Our results extend the case of proportional scaling between $N$, $P$ and $D$. They are in accordance with rigorous bounds known for certain particular learning tasks and are in quantitative agreement with numerical experiments performed over many order of magnitudes of $N$ and $P$. We find good agreement also far from the asymptotic limits where $D\to \infty$ and at least one between $P/D^K$, $N/D^L$ remains finite.
翻訳日:2024-02-16 14:21:54 公開日:2024-02-15
# リカレントニューラルネットワークにおけるワーキングメモリ変数に結合する隠れトラベル波

Hidden Traveling Waves bind Working Memory Variables in Recurrent Neural Networks ( http://arxiv.org/abs/2402.10163v1 )

ライセンス: Link先を確認
Arjun Karuvally, Terrence J. Sejnowski, Hava T. Siegelmann(参考訳) トラベル波は脳の基本的な現象であり、短期的な情報保存において重要な役割を果たす。 本研究では,神経格子内の進行波ダイナミクスの概念を活用し,神経作業記憶の理論モデルを構築し,その特性とaiにおける実世界への影響について検討する。 提案手法は,静的なレジスタ状位置における情報記憶を干渉によって更新する従来の手法と異なる。 代わりに、モデルは、波の境界条件によって更新される波としてデータを格納する。 歴史に依存した力学系を学習する上で欠かせない状態履歴の表現と学習におけるモデルの能力について精査する。 その結果, モデルが外部情報を確実に保存し, 勾配の減少に対処して学習プロセスを強化することがわかった。 モデルの適用性を理解するために,線形境界条件と非線形,自己注意駆動境界条件の2つのケースを探索する。 実験の結果,線形シナリオは履歴に依存した力学系をモデル化する際に,バックプロパゲーションを通じてリカレントニューラルネットワーク(RNN)によって効果的に学習されることがわかった。 逆に、非線形シナリオは注意のみのトランスの自己回帰ループと平行である。 我々の発見は、AIにおける走行波の幅広い関連性と、ニューラルネットワークアーキテクチャの進歩の可能性を示している。

Traveling waves are a fundamental phenomenon in the brain, playing a crucial role in short-term information storage. In this study, we leverage the concept of traveling wave dynamics within a neural lattice to formulate a theoretical model of neural working memory, study its properties, and its real world implications in AI. The proposed model diverges from traditional approaches, which assume information storage in static, register-like locations updated by interference. Instead, the model stores data as waves that is updated by the wave's boundary conditions. We rigorously examine the model's capabilities in representing and learning state histories, which are vital for learning history-dependent dynamical systems. The findings reveal that the model reliably stores external information and enhances the learning process by addressing the diminishing gradient problem. To understand the model's real-world applicability, we explore two cases: linear boundary condition and non-linear, self-attention-driven boundary condition. The experiments reveal that the linear scenario is effectively learned by Recurrent Neural Networks (RNNs) through backpropagation when modeling history-dependent dynamical systems. Conversely, the non-linear scenario parallels the autoregressive loop of an attention-only transformer. Collectively, our findings suggest the broader relevance of traveling waves in AI and its potential in advancing neural network architectures.
翻訳日:2024-02-16 14:21:35 公開日:2024-02-15
# 知識注入型LLMを用いた会話型健康エージェント : 糖尿病患者を事例として

Knowledge-Infused LLM-Powered Conversational Health Agent: A Case Study for Diabetes Patients ( http://arxiv.org/abs/2402.10153v1 )

ライセンス: Link先を確認
Mahyar Abbasian, Zhongqi Yang, Elahe Khatibi, Pengfei Zhang, Nitish Nagesh, Iman Azimi, Ramesh Jain, Amir M. Rahmani(参考訳) 糖尿病患者の健康維持には効果的な糖尿病管理が不可欠である。 大規模言語モデル(LLM)は糖尿病治療のための新たな道を開いた。 しかし、現在のllmベースのアプローチは、一般的なソースへの依存とドメイン固有の知識との統合の欠如によって制限され、不正確な応答をもたらす。 本稿では,糖尿病患者に対する知識注入型会話型健康エージェント(cha)を提案する。 オープンソースのopenCHAフレームワークをカスタマイズして活用し、外部知識と分析能力でCHAを強化します。 この統合には2つの重要なコンポーネントが含まれる。 1)アメリカ糖尿病協会の食事ガイドラインと栄養情報とを取り入れること 2)栄養摂取量計算を可能にする分析ツールの展開とガイドラインとの比較。 提案したCHAとGPT4を比較した。 本評価では,毎日の食事選択に関する糖尿病関連質問100件と,提案した食事に関する潜在的なリスクを評価する。 以上の結果から,本剤は本態性栄養素管理のための反応生成において優れた性能を示すことが示唆された。

Effective diabetes management is crucial for maintaining health in diabetic patients. Large Language Models (LLMs) have opened new avenues for diabetes management, facilitating their efficacy. However, current LLM-based approaches are limited by their dependence on general sources and lack of integration with domain-specific knowledge, leading to inaccurate responses. In this paper, we propose a knowledge-infused LLM-powered conversational health agent (CHA) for diabetic patients. We customize and leverage the open-source openCHA framework, enhancing our CHA with external knowledge and analytical capabilities. This integration involves two key components: 1) incorporating the American Diabetes Association dietary guidelines and the Nutritionix information and 2) deploying analytical tools that enable nutritional intake calculation and comparison with the guidelines. We compare the proposed CHA with GPT4. Our evaluation includes 100 diabetes-related questions on daily meal choices and assessing the potential risks associated with the suggested diet. Our findings show that the proposed agent demonstrates superior performance in generating responses to manage essential nutrients.
翻訳日:2024-02-16 14:21:13 公開日:2024-02-15
# ControlLM: 言語モデルのための多言語パーソナリティの構築

ControlLM: Crafting Diverse Personalities for Language Models ( http://arxiv.org/abs/2402.10151v1 )

ライセンス: Link先を確認
Yixuan Weng, Shizhu He, Kang Liu, Shengping Liu, Jun Zhao(参考訳) 言語モデルのサイズと能力が拡大し続けるにつれ、それらは有益な振る舞いと関連する振る舞いの配列を表示します。 これにより、モデル動作を制御する必要が高まる。 我々は,言語モデルの性格特性を推論時に制御し,様々な特徴を持つようにし,その上に,様々な種類のタスクの要求を満たすことを期待する。 パーソナリティは言語モデルのより高レベルで抽象的な行動表現である。 そこで本研究では,モデルの潜在空間における行動プロンプトの対比から導かれる,差動活性化パターンを利用した制御LMを提案する。 このアプローチはモデル行動の正確なリアルタイム調整を可能にする。 まず,訓練を行わずに多様なペルソナ行動を誘発するコントロールlmの能力を示すとともに,パーソナリティ特性が平均的人間価値に密接にマッチすることを示す。 その後,良心性や親しみ性といった有益な属性を選択的に増幅することで,推論と質問応答の改善を示す。 この研究が言語モデルの人間的な振る舞いを制御し、将来の研究に洞察を与えることを期待している。 私たちのコードは、https://github.com/wengsyx/ControlLM.comで公開されています。

As language models continue to scale in size and capability, they display an array of emerging behaviors, both beneficial and concerning. This heightens the need to control model behaviors. We hope to be able to control the personality traits of language models at the inference-time so as to have various character features, on top of which the requirements of different types of tasks can be met. Personality is a higher-level and more abstract behavioral representation for language models. We introduce ControlLM, which leverages differential activation patterns, derived from contrasting behavioral prompts in the model's latent space, to influence the model's personality traits at inference. This approach allows for the precise, real-time adjustment of model behavior. First, we demonstrate ControlLM's capacity to elicit diverse persona behaviors without any training, while precision control allows personality traits to closely match average human values. Subsequently, we showcase improved reasoning and question answering through selective amplification of beneficial attributes like conscientiousness and friendliness. We hope that this work will inspire research on controlling human-like behaviors of language models and provide insights for future research. Our code is publicly available at: https://github.com/wengsyx/ControlLM.
翻訳日:2024-02-16 14:20:58 公開日:2024-02-15
# 連続列列列モデリングのための階層的状態空間モデル

Hierarchical State Space Models for Continuous Sequence-to-Sequence Modeling ( http://arxiv.org/abs/2402.10211v1 )

ライセンス: Link先を確認
Raunaq Bhirangi, Chenyu Wang, Venkatesh Pattabiraman, Carmel Majidi, Abhinav Gupta, Tess Hellebrekers, Lerrel Pinto(参考訳) 生の感覚データのシーケンスから推論することは、医療機器からロボットまで、あらゆる分野にまたがるユビキタスな問題である。 これらの問題はしばしば、望ましい物理量のシーケンス(例えば力、慣性測定)を予測するために、センサーデータの長いシーケンス(例えば磁力計、ピエゾ抵抗器)を使用する。 古典的アプローチは局所線形予測問題に対して強力であるが、現実世界のセンサーを使う場合には不足することが多い。 これらのセンサーは一般的に非線形であり、外部変数(例えば振動)に影響され、データ依存ドリフトを示す。 多くの問題に対して、地上ラベルを取得するには高価な機器が必要であるため、小さなラベル付きデータセットによって予測タスクが悪化する。 本研究では,階層型状態空間モデル(HiSS)を提案する。 HiSSスタックは、時間階層を生成するために、互いに上にステートスペースモデルを構造化する。 触覚に基づく状態予測から加速度計による慣性測定に至るまで、現実世界の6つのセンサデータセットにわたって、HiSSは、因果変換器、LSTM、S4、Mambaといった最先端のシーケンスモデルを、MSEで少なくとも23%上回っている。 我々の実験は、HiSSがより小さなデータセットへの効率的なスケーリングを示し、既存のデータフィルタリング技術と互換性があることを示唆している。 コード、データセット、ビデオはhttps://hiss-csp.github.ioで見ることができる。

Reasoning from sequences of raw sensory data is a ubiquitous problem across fields ranging from medical devices to robotics. These problems often involve using long sequences of raw sensor data (e.g. magnetometers, piezoresistors) to predict sequences of desirable physical quantities (e.g. force, inertial measurements). While classical approaches are powerful for locally-linear prediction problems, they often fall short when using real-world sensors. These sensors are typically non-linear, are affected by extraneous variables (e.g. vibration), and exhibit data-dependent drift. For many problems, the prediction task is exacerbated by small labeled datasets since obtaining ground-truth labels requires expensive equipment. In this work, we present Hierarchical State-Space Models (HiSS), a conceptually simple, new technique for continuous sequential prediction. HiSS stacks structured state-space models on top of each other to create a temporal hierarchy. Across six real-world sensor datasets, from tactile-based state prediction to accelerometer-based inertial measurement, HiSS outperforms state-of-the-art sequence models such as causal Transformers, LSTMs, S4, and Mamba by at least 23% on MSE. Our experiments further indicate that HiSS demonstrates efficient scaling to smaller datasets and is compatible with existing data-filtering techniques. Code, datasets and videos can be found on https://hiss-csp.github.io.
翻訳日:2024-02-16 14:14:10 公開日:2024-02-15
# テキスト対画像生成のための拡散モデルの自己再生微調整

Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation ( http://arxiv.org/abs/2402.10210v1 )

ライセンス: Link先を確認
Huizhuo Yuan and Zixiang Chen and Kaixuan Ji and Quanquan Gu(参考訳) 微調整拡散モデル(英語版)は、特に微調整大型言語モデル(LLM)における顕著な進歩と比較して、生成的人工知能(GenAI)の未発見のフロンティアである。 安定拡散(sd)やsdxlのような最先端拡散モデルは教師付き微調整に依存するが、その性能は、あるデータ量を見た後に必然的に高まる。 近年,人間の好みデータを用いた拡散モデルの微調整に強化学習(rl)が採用されているが,各テキストプロンプトには少なくとも2つの画像("winner" と "loser" 画像)が必要である。 本稿では,拡散モデルに対する自己演奏ファインチューニング(SPIN-Diffusion)と呼ばれる革新的手法を紹介し,拡散モデルが以前のバージョンと競合し,反復的な自己改善プロセスを促進する。 提案手法は,従来の教師付き微調整およびrl戦略に代わるもので,モデル性能とアライメントを著しく改善する。 我々のPick-a-Picデータセットを用いた実験により、SPIN-Diffusionは人間の好みの調整や視覚的魅力の面において、既存の教師付き微調整法よりも優れていることがわかった。 2回目のイテレーションでは、RLHFベースのメソッドのパフォーマンスをすべてのメトリクスで上回り、より少ないデータでこれらの結果を達成する。

Fine-tuning Diffusion Models remains an underexplored frontier in generative artificial intelligence (GenAI), especially when compared with the remarkable progress made in fine-tuning Large Language Models (LLMs). While cutting-edge diffusion models such as Stable Diffusion (SD) and SDXL rely on supervised fine-tuning, their performance inevitably plateaus after seeing a certain volume of data. Recently, reinforcement learning (RL) has been employed to fine-tune diffusion models with human preference data, but it requires at least two images ("winner" and "loser" images) for each text prompt. In this paper, we introduce an innovative technique called self-play fine-tuning for diffusion models (SPIN-Diffusion), where the diffusion model engages in competition with its earlier versions, facilitating an iterative self-improvement process. Our approach offers an alternative to conventional supervised fine-tuning and RL strategies, significantly improving both model performance and alignment. Our experiments on the Pick-a-Pic dataset reveal that SPIN-Diffusion outperforms the existing supervised fine-tuning method in aspects of human preference alignment and visual appeal right from its first iteration. By the second iteration, it exceeds the performance of RLHF-based methods across all metrics, achieving these results with less data.
翻訳日:2024-02-16 14:13:41 公開日:2024-02-15
# 生成モデルの事前調整重みの回復

Recovering the Pre-Fine-Tuning Weights of Generative Models ( http://arxiv.org/abs/2402.10208v1 )

ライセンス: Link先を確認
Eliahu Horwitz, Jonathan Kahana, Yedid Hoshen(参考訳) 生成モデリングにおける支配的なパラダイムは2つのステップから構成される。 一 大規模かつ安全でないデータセットの事前訓練 二 訓練済みモデルを微調整により人的価値と整合させること。 現行の手法では安全でない事前調整モデルの重みを回復できないため、このプラクティスは安全であると考えられている。 本稿では,この仮定がしばしば誤りであることを示す。 具体的には、いくつかの低ランク(LoRA)微調整モデルを用いて、プリファインチューニングモデルの重みを復元できるSpectral DeTuningを提案する。 事前チューニング能力を回復しようとする以前の攻撃とは対照的に,本手法は正確な事前チューニング重みを回復することを目的としている。 このアプローチでは、パーソナライズされたStable DiffusionやアライメントされたMistralといった大規模モデルに対して、この新しい脆弱性を活用する。

The dominant paradigm in generative modeling consists of two steps: i) pre-training on a large-scale but unsafe dataset, ii) aligning the pre-trained model with human values via fine-tuning. This practice is considered safe, as no current method can recover the unsafe, pre-fine-tuning model weights. In this paper, we demonstrate that this assumption is often false. Concretely, we present Spectral DeTuning, a method that can recover the weights of the pre-fine-tuning model using a few low-rank (LoRA) fine-tuned models. In contrast to previous attacks that attempt to recover pre-fine-tuning capabilities, our method aims to recover the exact pre-fine-tuning weights. Our approach exploits this new vulnerability against large-scale models such as a personalized Stable Diffusion and an aligned Mistral.
翻訳日:2024-02-16 14:13:17 公開日:2024-02-15
# rewards-in-context:動的嗜好調整を伴う基礎モデルの多目的アライメント

Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment ( http://arxiv.org/abs/2402.10207v1 )

ライセンス: Link先を確認
Rui Yang, Xiaoman Pan, Feng Luo, Shuang Qiu, Han Zhong, Dong Yu, Jianshu Chen(参考訳) 我々は、基礎モデルの多目的アライメントと人間の好みの問題を考える。これは、有益で無害なaiシステムへの重要なステップである。 しかし、強化学習(rl)を用いた大規模基礎モデルでは、一般的にコストがかかり不安定であり、多次元性、異質性、相反する人間の選好の性質によりアライメントプロセスはさらに複雑になる。 本稿では,複数の報酬に対する基礎モデルの応答をプロンプト・コンテキストで条件付けし,教師付き微調整をアライメントに適用したrewards-in-context (ric)を提案する。 RiCの優れた特徴は単純さと適応性であり、単一のファンデーションモデルの教師付き微調整しか必要とせず、推論時間中にユーザの好みを動的に調整できる。 抽象凸最適化問題の解析解にインスパイアされた我々の動的推論時間調整法は、複数の目的に対してパレート最適解にアプローチする。 実験的な証拠は,多目的RLベースラインと比較して,多言語モデル(LLM)と拡散モデル(拡散モデル)の整合性が,GPU時間あたり10 %程度にしか満たないことを示す。

We consider the problem of multi-objective alignment of foundation models with human preferences, which is a critical step towards helpful and harmless AI systems. However, it is generally costly and unstable to fine-tune large foundation models using reinforcement learning (RL), and the multi-dimensionality, heterogeneity, and conflicting nature of human preferences further complicate the alignment process. In this paper, we introduce Rewards-in-Context (RiC), which conditions the response of a foundation model on multiple rewards in its prompt context and applies supervised fine-tuning for alignment. The salient features of RiC are simplicity and adaptivity, as it only requires supervised fine-tuning of a single foundation model and supports dynamic adjustment for user preferences during inference time. Inspired by the analytical solution of an abstracted convex optimization problem, our dynamic inference-time adjustment method approaches the Pareto-optimal solution for multiple objectives. Empirical evidence demonstrates the efficacy of our method in aligning both Large Language Models (LLMs) and diffusion models to accommodate diverse rewards with only around $10\%$ GPU hours compared with multi-objective RL baseline.
翻訳日:2024-02-16 14:13:04 公開日:2024-02-15
# Ising on the Graph: Ising Modelによるタスク固有のグラフサブサンプリング

Ising on the Graph: Task-specific Graph Subsampling via the Ising Model ( http://arxiv.org/abs/2402.10206v1 )

ライセンス: Link先を確認
Maria B{\aa}nkestad, Jennifer Andersson, Sebastian Mair, Jens Sj\"olund(参考訳) 全体構造を維持しながらグラフを減らすことは、多くのアプリケーションにとって重要な問題である。 通常、リダクションアプローチは、特定の下流タスクを念頭に置いて、エッジ(スパーシフィケーション)またはマージノード(粗い)を教師なしの方法で除去する。 本稿では,ノードあるいはエッジ上で定義されたIsingモデルを用いてグラフ構造をサブサンプリングし,グラフニューラルネットワークを用いてIsingモデルの外部磁場を学習する手法を提案する。 エンド・ツー・エンドの方法で特定の下流タスクに対するグラフの削減方法を学ぶことができるため、我々のアプローチはタスク固有である。 タスクの活用された損失関数は、微分可能でなくてもよい。 画像分割, 3次元形状スパーシフィケーション, スパース近似行列逆決定の3つの異なる応用において, アプローチの汎用性を示す。

Reducing a graph while preserving its overall structure is an important problem with many applications. Typically, the reduction approaches either remove edges (sparsification) or merge nodes (coarsening) in an unsupervised way with no specific downstream task in mind. In this paper, we present an approach for subsampling graph structures using an Ising model defined on either the nodes or edges and learning the external magnetic field of the Ising model using a graph neural network. Our approach is task-specific as it can learn how to reduce a graph for a specific downstream task in an end-to-end fashion. The utilized loss function of the task does not even have to be differentiable. We showcase the versatility of our approach on three distinct applications: image segmentation, 3D shape sparsification, and sparse approximate matrix inverse determination.
翻訳日:2024-02-16 14:12:40 公開日:2024-02-15
# 条件付き消音拡散モデルを用いたラジオ・アストロミカル画像再構成

Radio-astronomical Image Reconstruction with Conditional Denoising Diffusion Model ( http://arxiv.org/abs/2402.10204v1 )

ライセンス: Link先を確認
Mariia Drozdova, Vitaliy Kinakh, Omkar Bait, Olga Taran, Erica Lastufka, Miroslava Dessauges-Zavadsky, Taras Holotyak, Daniel Schaerer, Slava Voloshynovskiy(参考訳) 高精度なソースローカライゼーションとフラックス推定のために、汚れた電波画像からスカイモデルを再構成することは、特にアタカマ大ミリターアレイ (ALMA) のような深部での銀河の進化を研究するために重要である。 Square Kilometre Array (SKA)のような新しいプロジェクトでは、より良いソース抽出方法の必要性が高まっています。 CLEAN や PyBDSF といった現在の技術は、より正確な方法の必要性を強調して、希薄なソースの検出に失敗することが多い。 本研究では、確率的ニューラルネットワークを用いて、汚れた画像から直接スカイモデルを再構築する。 この方法は、電波源をピンポイントし、そのフラックスを関連する不確実性で測定し、電波源特性の潜在的な改善を示す。 我々は、ALMAのCycle 5.3アンテナ設定に基づいて、CASAツールのシミュレートした10164の画像に対して、このアプローチを検証した。 空モデル再構成に条件付きデノイング拡散確率モデル(DDPM)を適用し,Photutilsを用いてソース座標とフラックスを決定し,異なる水蒸気レベルのモデルの性能を評価する。 提案手法はソースローカライゼーションに優れ,信号-雑音比 (SNR) で90%以上の完全性を実現した。 また、フラックス推定ではpybdsfを上回り、テストセットの96%のソースのフラックスを正確に同定し、clean+ pybdsfの57%を大きく改善した。 条件付きDDPMは画像と画像の変換に強力なツールであり、電波源の正確で堅牢な特徴付けをもたらし、既存の手法よりも優れている。 本研究は、電波天文学の応用の可能性を示すものであるが、それに伴う一定の限界を認め、さらなる改良と研究の方向性を示唆する。

Reconstructing sky models from dirty radio images for accurate source localization and flux estimation is crucial for studying galaxy evolution at high redshift, especially in deep fields using instruments like the Atacama Large Millimetre Array (ALMA). With new projects like the Square Kilometre Array (SKA), there's a growing need for better source extraction methods. Current techniques, such as CLEAN and PyBDSF, often fail to detect faint sources, highlighting the need for more accurate methods. This study proposes using stochastic neural networks to rebuild sky models directly from dirty images. This method can pinpoint radio sources and measure their fluxes with related uncertainties, marking a potential improvement in radio source characterization. We tested this approach on 10164 images simulated with the CASA tool simalma, based on ALMA's Cycle 5.3 antenna setup. We applied conditional Denoising Diffusion Probabilistic Models (DDPMs) for sky models reconstruction, then used Photutils to determine source coordinates and fluxes, assessing the model's performance across different water vapor levels. Our method showed excellence in source localization, achieving more than 90% completeness at a signal-to-noise ratio (SNR) as low as 2. It also surpassed PyBDSF in flux estimation, accurately identifying fluxes for 96% of sources in the test set, a significant improvement over CLEAN+ PyBDSF's 57%. Conditional DDPMs is a powerful tool for image-to-image translation, yielding accurate and robust characterisation of radio sources, and outperforming existing methodologies. While this study underscores its significant potential for applications in radio astronomy, we also acknowledge certain limitations that accompany its usage, suggesting directions for further refinement and research.
翻訳日:2024-02-16 14:12:22 公開日:2024-02-15
# ブリッジング連想記憶と確率的モデリング

Bridging Associative Memory and Probabilistic Modeling ( http://arxiv.org/abs/2402.10202v1 )

ライセンス: Link先を確認
Rylan Schaeffer, Nika Zahedi, Mikail Khona, Dhruv Pai, Sang Truong, Yilun Du, Mitchell Ostrow, Sarthak Chandra, Andres Carranza, Ila Rani Fiete, Andrey Gromov, Sanmi Koyejo(参考訳) 連想記憶と確率的モデリングは人工知能の2つの基本的なトピックである。 第1の研究は、データを識別し、完全化し、取り出すように設計されたニューラルネットワークを、第2の研究は確率分布から学習し、サンプリングする。 連想記憶のエネルギー関数は確率的モデリングの負の対数確率と見なすことができるという観測に基づいて,両方向のアイデアの有用な流れを可能にする両者の橋渡しを構築する。 まず、エネルギー関数を新しいインコンテキストデータセットに柔軟に適応させる新しいエネルギーベースモデルを提案し、エネルギー関数の「textit{in-context learning of energy function」と呼ぶアプローチを示す。 第2に,ベイズ非パラメトリックスを用いたトレーニングデータで必要となる新たなメモリを動的に生成するモデルと,証拠下限を用いて比例メモリ割り当てを明示的に計算するモデルを提案する。 第3に,連想記憶のツールを用いて,確率的モデリングにおける幅広いツールであるガウス核密度推定器のメモリ容量を解析的,数値的に特徴付ける。 第4に、超球上でクラスタ化を行うことを示すために、トランスフォーマの広範な実装選択 -- 正規化と自己注意 -- を研究した。 この研究は、これらの2つの大陸間の有用なアイデアの交換を促す。

Associative memory and probabilistic modeling are two fundamental topics in artificial intelligence. The first studies recurrent neural networks designed to denoise, complete and retrieve data, whereas the second studies learning and sampling from probability distributions. Based on the observation that associative memory's energy functions can be seen as probabilistic modeling's negative log likelihoods, we build a bridge between the two that enables useful flow of ideas in both directions. We showcase four examples: First, we propose new energy-based models that flexibly adapt their energy functions to new in-context datasets, an approach we term \textit{in-context learning of energy functions}. Second, we propose two new associative memory models: one that dynamically creates new memories as necessitated by the training data using Bayesian nonparametrics, and another that explicitly computes proportional memory assignments using the evidence lower bound. Third, using tools from associative memory, we analytically and numerically characterize the memory capacity of Gaussian kernel density estimators, a widespread tool in probababilistic modeling. Fourth, we study a widespread implementation choice in transformers -- normalization followed by self attention -- to show it performs clustering on the hypersphere. Altogether, this work urges further exchange of useful ideas between these two continents of artificial intelligence.
翻訳日:2024-02-16 14:11:49 公開日:2024-02-15
# プロンプティングなしのチェーン・オブ・サート推論

Chain-of-Thought Reasoning Without Prompting ( http://arxiv.org/abs/2402.10200v1 )

ライセンス: Link先を確認
Xuezhi Wang, Denny Zhou(参考訳) 大規模言語モデル(llm)の推論能力の向上において、先行研究は主に、マイナショットやゼロショットチェイン・オブ・マインド(cot)プロンプトのような特定のプロンプト技術に焦点を当てている。 これらの手法は効果的であるが、しばしば手動で急速エンジニアリングを行う。 我々の研究は、LLMがプロンプトなしで効果的に理性を持つのか? 以上の結果から, CoT 推論経路は, 単に \textit{decoding} プロセスを変更するだけで, 事前学習した LLM から引き出すことができることがわかった。 従来のgreedy復号法ではなく、上位$kの代替トークンを調査し、CoTパスがこれらのシーケンスにしばしば依存していることを明らかにする。 このアプローチは、プロンプトする共同創設者をバイパスするだけでなく、LLMsの \textit{intrinsic} 推論能力を評価することもできる。 さらに, 復号化経路におけるcotの存在は, モデルの復号化応答に対する高い信頼度と相関することを示した。 この信頼度はCoTと非CoT経路を効果的に区別する。 様々な推論ベンチマークに関する広範な実証研究により、提案されたCoT復号法は標準グリーディ復号法を大幅に上回っていることが示された。

In enhancing the reasoning capabilities of large language models (LLMs), prior research primarily focuses on specific prompting techniques such as few-shot or zero-shot chain-of-thought (CoT) prompting. These methods, while effective, often involve manually intensive prompt engineering. Our study takes a novel approach by asking: Can LLMs reason effectively without prompting? Our findings reveal that, intriguingly, CoT reasoning paths can be elicited from pre-trained LLMs by simply altering the \textit{decoding} process. Rather than conventional greedy decoding, we investigate the top-$k$ alternative tokens, uncovering that CoT paths are frequently inherent in these sequences. This approach not only bypasses the confounders of prompting but also allows us to assess the LLMs' \textit{intrinsic} reasoning abilities. Moreover, we observe that the presence of a CoT in the decoding path correlates with a higher confidence in the model's decoded answer. This confidence metric effectively differentiates between CoT and non-CoT paths. Extensive empirical studies on various reasoning benchmarks show that the proposed CoT-decoding substantially outperforms the standard greedy decoding.
翻訳日:2024-02-16 14:11:26 公開日:2024-02-15
# シャープネス認識最小化とチャネルワイズ注意による時系列予測における変圧器の可能性の解錠

Unlocking the Potential of Transformers in Time Series Forecasting with Sharpness-Aware Minimization and Channel-Wise Attention ( http://arxiv.org/abs/2402.10198v1 )

ライセンス: Link先を確認
Romain Ilbert and Ambroise Odonnat and Vasilii Feofanov and Aladin Virmaux and Giuseppe Paolo and Themis Palpanas and Ievgen Redko(参考訳) トランスフォーマーベースのアーキテクチャは自然言語処理とコンピュータビジョンにおいて画期的な性能を達成したが、多変量長期予測において単純な線形ベースラインよりも劣っている。 この現象をよりよく理解するために,我々は,トランスフォーマーが表現力が高いにもかかわらず真の解に収束できないことを示す,おもちゃ線形予測問題の研究から始める。 我々はさらに、変換器の注意を、この低一般化能力の責任とみなす。 この知見に基づいて,シャープネス・アウェア最適化を施し,局所的な極小化をうまく回避できる軽量トランスフォーマーモデルを提案する。 実世界の多変量時系列データセットのすべてにこの結果が拡張されることを実証的に実証した。 特にSAMformerは、現在の最先端モデルであるTSMixerを平均14.33%上回り、パラメータはおよそ4倍少ない。 コードはhttps://github.com/romilbert/samformerで入手できる。

Transformer-based architectures achieved breakthrough performance in natural language processing and computer vision, yet they remain inferior to simpler linear baselines in multivariate long-term forecasting. To better understand this phenomenon, we start by studying a toy linear forecasting problem for which we show that transformers are incapable of converging to their true solution despite their high expressive power. We further identify the attention of transformers as being responsible for this low generalization capacity. Building upon this insight, we propose a shallow lightweight transformer model that successfully escapes bad local minima when optimized with sharpness-aware optimization. We empirically demonstrate that this result extends to all commonly used real-world multivariate time series datasets. In particular, SAMformer surpasses the current state-of-the-art model TSMixer by 14.33% on average, while having ~4 times fewer parameters. The code is available at https://github.com/romilbert/samformer.
翻訳日:2024-02-16 14:11:06 公開日:2024-02-15
# 震えてるカードの家? 言語エージェントに対する敵攻撃のマッピング

A Trembling House of Cards? Mapping Adversarial Attacks against Language Agents ( http://arxiv.org/abs/2402.10196v1 )

ライセンス: Link先を確認
Lingbo Mo, Zeyi Liao, Boyuan Zheng, Yu Su, Chaowei Xiao, Huan Sun(参考訳) 大規模言語モデル(LLM)を利用した言語エージェントは爆発的な発展を遂げている。 言語を思考とコミュニケーションの手段として使う能力は、驚くほどの柔軟性と汎用性をもたらします。 LLMを広範囲の外部コンポーネントや環境(データベース、ツール、インターネット、ロボティック・エボディメントなど)に接続する能力は、急速に進歩しています。 多くの人が前例のないほど強力な自動化技術が登場していると信じている。 しかし、新しい自動化技術は、特に言語エージェントのような複雑なシステムにとって、新しい安全リスクをもたらす。 開発とデプロイメントのスピードと規模と,安全リスクに対する私たちの理解との間には,驚くほど大きなギャップがあります。 カードの家を建てるのか? 本稿では,言語エージェントに対する敵対的攻撃をマッピングする最初の体系的取り組みについて述べる。 まず、知覚、脳、行動という3つの主要な構成要素を持つエージェントのための統一的な概念的フレームワークを提案する。 この枠組みでは,エージェントの異なるコンポーネントに対する12の潜在的な攻撃シナリオを提案し,さまざまな攻撃戦略(入力操作,敵対的デモ,ジェイルブレイク,バックドアなど)をカバーする。 また、以前LSMに適用された攻撃戦略に接続する。 我々は,言語エージェントが広く展開する前に,言語エージェントのリスクを十分に理解するための緊急性を強調した。

Language agents powered by large language models (LLMs) have seen exploding development. Their capability of using language as a vehicle for thought and communication lends an incredible level of flexibility and versatility. People have quickly capitalized on this capability to connect LLMs to a wide range of external components and environments: databases, tools, the Internet, robotic embodiment, etc. Many believe an unprecedentedly powerful automation technology is emerging. However, new automation technologies come with new safety risks, especially for intricate systems like language agents. There is a surprisingly large gap between the speed and scale of their development and deployment and our understanding of their safety risks. Are we building a house of cards? In this position paper, we present the first systematic effort in mapping adversarial attacks against language agents. We first present a unified conceptual framework for agents with three major components: Perception, Brain, and Action. Under this framework, we present a comprehensive discussion and propose 12 potential attack scenarios against different components of an agent, covering different attack strategies (e.g., input manipulation, adversarial demonstrations, jailbreaking, backdoors). We also draw connections to successful attack strategies previously applied to LLMs. We emphasize the urgency to gain a thorough understanding of language agent risks before their widespread deployment.
翻訳日:2024-02-16 14:10:47 公開日:2024-02-15
# BitDelta:あなたのファインチューンは1ビットの価値しかないかもしれない

BitDelta: Your Fine-Tune May Only Be Worth One Bit ( http://arxiv.org/abs/2402.10193v1 )

ライセンス: Link先を確認
James Liu, Guangxuan Xiao, Kai Li, Jason D. Lee, Song Han, Tri Dao, Tianle Cai(参考訳) 大規模言語モデル(LLM)は通常、大規模なインターネットスケールデータセットの事前トレーニングと、下流タスクの微調整という2つのフェーズでトレーニングされる。 事前学習の計算要求が高くなると、微調整がモデルに新しい情報を加えず、圧縮しやすいと仮定するのは直感的である。 この仮定は、微調整されたモデルの重みを、事前訓練されたコンポーネントと追加のデルタに分解することで検討する。 我々は,このデルタを1ビットまで量子化する簡単な手法BitDeltaを導入し,性能を損なうことなく実現した。 この興味深い発見は、微調整中に追加された情報の冗長性を示すだけでなく、微調整されたモデルのマルチテナントサービスとマルチテナントストレージに大きな影響を与える。 複数の1ビットデルタを伴う1つの高精度ベースモデルを使用することで、BitDeltaはGPUメモリの要求を劇的に10倍に削減し、マルチテナント設定で生成遅延を向上することが可能になる。 我々は、Llama-2とMistralモデルファミリ、最大70Bパラメータのモデルによる実験を通じてBitDeltaを検証する。

Large Language Models (LLMs) are typically trained in two phases: pre-training on large internet-scale datasets, and fine-tuning for downstream tasks. Given the higher computational demand of pre-training, it's intuitive to assume that fine-tuning adds less new information to the model, and is thus more compressible. We explore this assumption by decomposing the weights of fine-tuned models into their pre-trained components and an additional delta. We introduce a simple method, BitDelta, which successfully quantizes this delta down to 1 bit without compromising performance. This interesting finding not only highlights the potential redundancy of information added during fine-tuning, but also has significant implications for the multi-tenant serving and multi-tenant storage of fine-tuned models. By enabling the use of a single high-precision base model accompanied by multiple 1-bit deltas, BitDelta dramatically reduces GPU memory requirements by more than 10x, which can also be translated to enhanced generation latency in multi-tenant settings. We validate BitDelta through experiments across Llama-2 and Mistral model families, and on models up to 70B parameters, showcasing minimal performance degradation over all tested settings.
翻訳日:2024-02-16 14:10:28 公開日:2024-02-15
# 多体物理誘導誘導バイアスによる多重励起射影シミュレーション

Multi-Excitation Projective Simulation with a Many-Body Physics Inspired Inductive Bias ( http://arxiv.org/abs/2402.10192v1 )

ライセンス: Link先を確認
Philip A. LeMaitre, Marius Krumm, and Hans J. Briegel(参考訳) ディープラーニングの驚くべき進歩により、機械学習に依存するアプリケーションは、日々の生活にますます統合されている。 しかし、ほとんどのディープラーニングモデルは不透明でオラクルのような性質を持ち、その決定を解釈し理解することは困難である。 この問題は、eXplainable Artificial Intelligence (XAI)として知られる分野の開発につながった。 射影シミュレーション(ps)として知られるこの分野の1つの方法は、頂点を持つグラフ上の粒子のランダムなウォークとして思考の連鎖をモデル化する。 この記述には量子化の可能性を含む様々な利点があるが、複数の概念を同時に組み合わせた思考をモデル化することは自然にできない。 この制限を克服するために,超グラフ上の複数の粒子のランダムウォークと考える一般化であるmulti-excitation projective simulation (meps)を導入する。 動的ハイパーグラフの定義は、エージェントのトレーニング履歴と、AIやハイパーグラフ視覚化への応用を記述するために提案される。 量子多体物理学で著しく成功した多体相互作用モデルに着想を得た帰納的バイアスは、我々の古典的なmePSフレームワークで形式化され、ハイパーグラフの単純実装に関連する指数関数的複雑性に対処するために使用される。 帰納的バイアスは指数関数から多項式への複雑性を減少させ、指数は素粒子の相互作用のカットオフを表す。 本手法を2つの玩具環境に適用し, 故障したコンピュータの診断をモデル化するより複雑なシナリオを提案する。 これらの環境は、インダクティブバイアスの適切な選択によって提供されるリソースの節約と、解釈可能性の側面を示す。 また,mePSの量子モデルについても概説し,今後の方向性について述べる。

With the impressive progress of deep learning, applications relying on machine learning are increasingly being integrated into daily life. However, most deep learning models have an opaque, oracle-like nature making it difficult to interpret and understand their decisions. This problem led to the development of the field known as eXplainable Artificial Intelligence (XAI). One method in this field known as Projective Simulation (PS) models a chain-of-thought as a random walk of a particle on a graph with vertices that have concepts attached to them. While this description has various benefits, including the possibility of quantization, it cannot be naturally used to model thoughts that combine several concepts simultaneously. To overcome this limitation, we introduce Multi-Excitation Projective Simulation (mePS), a generalization that considers a chain-of-thought to be a random walk of several particles on a hypergraph. A definition for a dynamic hypergraph is put forward to describe the agent's training history along with applications to AI and hypergraph visualization. An inductive bias inspired by the remarkably successful few-body interaction models used in quantum many-body physics is formalized for our classical mePS framework and employed to tackle the exponential complexity associated with naive implementations of hypergraphs. We prove that our inductive bias reduces the complexity from exponential to polynomial, with the exponent representing the cutoff on how many particles can interact. We numerically apply our method to two toy environments and a more complex scenario modelling the diagnosis of a broken computer. These environments demonstrate the resource savings provided by an appropriate choice of inductive bias, as well as showcasing aspects of interpretability. A quantum model for mePS is also briefly outlined and some future directions for it are discussed.
翻訳日:2024-02-16 14:10:05 公開日:2024-02-15
# FedAnchor: ラベルコントラストによるフェデレーションによる半教師付き学習の強化

FedAnchor: Enhancing Federated Semi-Supervised Learning with Label Contrastive Loss for Unlabeled Clients ( http://arxiv.org/abs/2402.10191v1 )

ライセンス: Link先を確認
Xinchi Qiu, Yan Gao, Lorenzo Sani, Heng Pan, Wanru Zhao, Pedro P. B. Gusmao, Mina Alibeigi, Alex Iacob, Nicholas D. Lane(参考訳) Federated Learning(FL)は、データのローカライズを維持しながら、デバイス間で共有グローバルモデルの協調トレーニングを容易にする分散学習パラダイムである。 多数の現実世界のアプリケーションへのflのデプロイは、主に監督されたタスクに依存することによる遅延に直面している。 エッジデバイスで詳細なラベルを生成するには、リソースの制約と継続的なデータ更新の必要条件が必要になります。 これらの課題に対処する上で、ラベルのないクライアントのデータと限られた量のラベル付きデータに依存するfssl(federated semi-supervised learning)のようなソリューションが重要となる。 本稿では,サーバ上のラベル付きアンカーデータに特化して訓練された分類ヘッドと組み合わせて,アンカーヘッドと呼ばれるユニークな二重ヘッド構造を導入する,革新的なFSSL手法であるFedAnchorを提案する。 アンカーヘッドは、コサイン類似度メトリックに基づいて新しく設計されたラベルのコントラスト損失によって付与される。 本手法は,高い信頼度モデル予測サンプルに基づく擬似ラベル技術に関連する確認バイアスを軽減し,問題をオーバーフィットする。 CIFAR10/100データセットとSVHNデータセットの大規模な実験により,本手法は収束率とモデル精度において有意差で最先端の手法より優れていることが示された。

Federated learning (FL) is a distributed learning paradigm that facilitates collaborative training of a shared global model across devices while keeping data localized. The deployment of FL in numerous real-world applications faces delays, primarily due to the prevalent reliance on supervised tasks. Generating detailed labels at edge devices, if feasible, is demanding, given resource constraints and the imperative for continuous data updates. In addressing these challenges, solutions such as federated semi-supervised learning (FSSL), which relies on unlabeled clients' data and a limited amount of labeled data on the server, become pivotal. In this paper, we propose FedAnchor, an innovative FSSL method that introduces a unique double-head structure, called anchor head, paired with the classification head trained exclusively on labeled anchor data on the server. The anchor head is empowered with a newly designed label contrastive loss based on the cosine similarity metric. Our approach mitigates the confirmation bias and overfitting issues associated with pseudo-labeling techniques based on high-confidence model prediction samples. Extensive experiments on CIFAR10/100 and SVHN datasets demonstrate that our method outperforms the state-of-the-art method by a significant margin in terms of convergence rate and model accuracy.
翻訳日:2024-02-16 14:09:38 公開日:2024-02-15
# 大規模言語モデルの文脈内学習における不確実性分解と定量化

Uncertainty Decomposition and Quantification for In-Context Learning of Large Language Models ( http://arxiv.org/abs/2402.10189v1 )

ライセンス: Link先を確認
Chen Ling, Xujiang Zhao, Wei Cheng, Yanchi Liu, Yiyou Sun, Xuchao Zhang, Mika Oishi, Takao Osaki, Katsushi Matsuda, Jie Ji, Guangji Bai, Liang Zhao, Haifeng Chen(参考訳) インコンテキスト学習はLarge Language Models(LLM)の画期的な能力として登場し、いくつかのタスク関連デモをプロンプトで提供することによって、さまざまな分野に革命をもたらした。 しかし、幻覚などのLSMの反応に関する信頼できる問題も積極的に議論されている。 既存の研究はLLMの応答の不確かさの定量化に費やされてきたが、LLMの複雑な性質と文脈内学習の独特さをしばしば見落としている。 本研究は,文脈内学習に関連するllmの予測的不確実性について考察し,その不確実性は,提供されたデモンストレーション(アレータ的不確実性)と,モデルの構成(適応的不確実性)に結びついた曖昧性(あいまいさ)の両方に起因する可能性があることを指摘した。 両タイプの不確かさを定量化するための新しい定式化および対応する推定法を提案する。 提案手法は、プラグアンドプレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。 大規模な実験を行い, 分解の有効性を実証した。 コードとデータは、 \url{https://github.com/lingchen0331/uq_icl} で入手できる。

In-context learning has emerged as a groundbreaking ability of Large Language Models (LLMs) and revolutionized various fields by providing a few task-relevant demonstrations in the prompt. However, trustworthy issues with LLM's response, such as hallucination, have also been actively discussed. Existing works have been devoted to quantifying the uncertainty in LLM's response, but they often overlook the complex nature of LLMs and the uniqueness of in-context learning. In this work, we delve into the predictive uncertainty of LLMs associated with in-context learning, highlighting that such uncertainties may stem from both the provided demonstrations (aleatoric uncertainty) and ambiguities tied to the model's configurations (epistemic uncertainty). We propose a novel formulation and corresponding estimation method to quantify both types of uncertainties. The proposed method offers an unsupervised way to understand the prediction of in-context learning in a plug-and-play fashion. Extensive experiments are conducted to demonstrate the effectiveness of the decomposition. The code and data are available at: \url{https://github.com/lingchen0331/UQ_ICL}.
翻訳日:2024-02-16 14:09:15 公開日:2024-02-15
# 低深度QAOA景観におけるトレーサビリティバリア

Trainability Barriers in Low-Depth QAOA Landscapes ( http://arxiv.org/abs/2402.10188v1 )

ライセンス: Link先を確認
Joel Rajakumar, John Golden, Andreas B\"artschi, Stephan Eidenbenz(参考訳) 量子交互作用素 ansatz (qaoa) は組合せ最適化問題を解決するための顕著な変分量子アルゴリズムである。 その有効性は、高品質な解を生み出す入力パラメータの同定に依存する。 しかし、qaoaの訓練の複雑さを理解することは未熟な領域である。 以前の結果から、小さなパラメータの固定数の解析性能が保証された。 スペクトルの反対の端では、バレンプラトーは$n$ qubitsに対して$\Omega(n)$パラメータで現れる。 そこで本研究では,近年の数値計算と短期ハードウェア実装の焦点である中間システムにおけるトレーニングの難しさについて検討する。 QAOAランドスケープは局所的最小値の品質と量に関する広範な数値解析を通じて、パラメータ数が$n$と対数的にスケールしても、低品質な局所的最小値の数でスーパーポリノミカルな成長を示すことができると論じる。 これは、ランダムに初期化されたパラメータからの勾配降下の一般的なテクニックは、小さな$n$を超える失敗を免れ、最適なパラメータの適切な初期推定の必要性を強調することを意味する。

The Quantum Alternating Operator Ansatz (QAOA) is a prominent variational quantum algorithm for solving combinatorial optimization problems. Its effectiveness depends on identifying input parameters that yield high-quality solutions. However, understanding the complexity of training QAOA remains an under-explored area. Previous results have given analytical performance guarantees for a small, fixed number of parameters. At the opposite end of the spectrum, barren plateaus are likely to emerge at $\Omega(n)$ parameters for $n$ qubits. In this work, we study the difficulty of training in the intermediate regime, which is the focus of most current numerical studies and near-term hardware implementations. Through extensive numerical analysis of the quality and quantity of local minima, we argue that QAOA landscapes can exhibit a superpolynomial growth in the number of low-quality local minima even when the number of parameters scales logarithmically with $n$. This means that the common technique of gradient descent from randomly initialized parameters is doomed to fail beyond small $n$, and emphasizes the need for good initial guesses of the optimal parameters.
翻訳日:2024-02-16 14:08:55 公開日:2024-02-15
# グラフ上での文脈学習によるユニバーサルリンク予測

Universal Link Predictor By In-Context Learning on Graphs ( http://arxiv.org/abs/2402.07738v2 )

ライセンス: Link先を確認
Kaiwen Dong, Haitao Mao, Zhichun Guo, Nitesh V. Chawla(参考訳) グラフ機械学習では、グラフ内の欠落や将来のリンクを推測することを目的として、リンク予測が重要なタスクである。 従来のアプローチでは、広く観察される接続パターンに基づいたヒューリスティックな手法を採用し、モデルトレーニングを必要とせず、幅広い適用性と一般化性を提供する。 実用性にもかかわらず、これらの手法は人間由来のヒューリスティックに依存し、データ駆動アプローチの適応性に欠ける。 逆にパラメトリックリンク予測器は、データから接続パターンを自動的に学習し、最先端を達成するのに優れているが、異なるグラフを直接渡すのに失敗する。 その代わり、ターゲットグラフに適応するために、広範なトレーニングとハイパーパラメータ最適化のコストが必要です。 本稿では,ヒューリスティックアプローチの一般化可能性とパラメトリックモデルのパターン学習能力を組み合わせた新しいモデルであるuniversal link predictor (unilp)を提案する。 UniLPは、さまざまなグラフをまたいだ接続パターンを自律的に識別するように設計されている。 In-context Learning (ICL) の実装を通じて、異なるグラフのユニークな分布から生じる接続パターンの矛盾に対処する。 このアプローチにより、UniLPはコンテキスト実証に基づいて様々なターゲットグラフに動的に調整できるため、負の移動を避けることができる。 厳密な実験を通じて、unilpは、テスト時に新しい未知のグラフに適応し、特定のデータセット用に微調整されたパラメトリックモデルに対して、比較可能な、あるいは、よりパフォーマンスの高いパラメトリックモデルを実行する能力を示す。 この結果から,UniLPがリンク予測の新しい標準を策定し,ヒューリスティックな手法とパラメトリックな手法の長所を1つの多目的フレームワークで組み合わせる可能性が示唆された。

Link prediction is a crucial task in graph machine learning, where the goal is to infer missing or future links within a graph. Traditional approaches leverage heuristic methods based on widely observed connectivity patterns, offering broad applicability and generalizability without the need for model training. Despite their utility, these methods are limited by their reliance on human-derived heuristics and lack the adaptability of data-driven approaches. Conversely, parametric link predictors excel in automatically learning the connectivity patterns from data and achieving state-of-the-art but fail short to directly transfer across different graphs. Instead, it requires the cost of extensive training and hyperparameter optimization to adapt to the target graph. In this work, we introduce the Universal Link Predictor (UniLP), a novel model that combines the generalizability of heuristic approaches with the pattern learning capabilities of parametric models. UniLP is designed to autonomously identify connectivity patterns across diverse graphs, ready for immediate application to any unseen graph dataset without targeted training. We address the challenge of conflicting connectivity patterns-arising from the unique distributions of different graphs-through the implementation of In-context Learning (ICL). This approach allows UniLP to dynamically adjust to various target graphs based on contextual demonstrations, thereby avoiding negative transfer. Through rigorous experimentation, we demonstrate UniLP's effectiveness in adapting to new, unseen graphs at test time, showcasing its ability to perform comparably or even outperform parametric models that have been finetuned for specific datasets. Our findings highlight UniLP's potential to set a new standard in link prediction, combining the strengths of heuristic and parametric methods in a single, versatile framework.
翻訳日:2024-02-16 12:24:52 公開日:2024-02-15
# ByteStack-ID:Grayscale Image-based Network Intrusion Detectionのための Payload Byte Frequency を利用した統合スタックモデル

ByteStack-ID: Integrated Stacked Model Leveraging Payload Byte Frequency for Grayscale Image-based Network Intrusion Detection ( http://arxiv.org/abs/2310.09298v3 )

ライセンス: Link先を確認
Irfan Khan, Yasir Ali Farrukh and Syed Wali(参考訳) 進化を続けるネットワークセキュリティの領域では、ネットワークトラフィック内の多様な攻撃クラスの迅速かつ正確な識別が最優先事項である。 本稿では,パケットレベルの侵入検知に適した先駆的アプローチであるByteStack-IDを提案する。 bytestack-idの中核は、ペイロードデータの頻度分布から生成されたグレースケールのイメージを活用しており、これは複雑なデータパターンを識別するモデルの能力を大きく向上する画期的な技術である。 特に,本手法は,主にフローベースデータに依存する従来のネットワーク侵入検知システム(NIDS)から逸脱したパケットレベルの情報にのみ基づいている。 ByteStack-IDはスタック手法の基本的な概念に基づいて構築されているが、従来のスタック手法とは異なっている。 新たなメタ学習層を統合ベース学習層にシームレスに統合し、高度に最適化された統一モデルを作成する。 ByteStack-IDフレームワークは、精度、リコール、F1スコアを含む重要なパフォーマンス指標にわたって、ベースラインモデルと最先端のアプローチを一貫して上回っている。 印象的なことに,提案手法は,マルチクラス分類タスクにおいて,81\%のマクロF1スコアを実現する。 ネットワークの脅威の継続的な進化によって特徴づけられる状況において、bytestack-idは堅牢で汎用性の高いセキュリティソリューションとして出現し、ネットワークトラフィックデータから抽出されたパケットレベルの情報のみに依存する。

In the ever-evolving realm of network security, the swift and accurate identification of diverse attack classes within network traffic is of paramount importance. This paper introduces "ByteStack-ID," a pioneering approach tailored for packet-level intrusion detection. At its core, ByteStack-ID leverages grayscale images generated from the frequency distributions of payload data, a groundbreaking technique that greatly enhances the model's ability to discern intricate data patterns. Notably, our approach is exclusively grounded in packet-level information, a departure from conventional Network Intrusion Detection Systems (NIDS) that predominantly rely on flow-based data. While building upon the fundamental concept of stacking methodology, ByteStack-ID diverges from traditional stacking approaches. It seamlessly integrates additional meta learner layers into the concatenated base learners, creating a highly optimized, unified model. Empirical results unequivocally confirm the outstanding effectiveness of the ByteStack-ID framework, consistently outperforming baseline models and state-of-the-art approaches across pivotal performance metrics, including precision, recall, and F1-score. Impressively, our proposed approach achieves an exceptional 81\% macro F1-score in multiclass classification tasks. In a landscape marked by the continuous evolution of network threats, ByteStack-ID emerges as a robust and versatile security solution, relying solely on packet-level information extracted from network traffic data.
翻訳日:2024-02-16 12:24:21 公開日:2024-02-15
# Hyp-OW:ハイパーボリック距離を用いた階層構造学習の爆発によるオープンワールド物体検出

Hyp-OW: Exploiting Hierarchical Structure Learning with Hyperbolic Distance Enhances Open World Object Detection ( http://arxiv.org/abs/2306.14291v4 )

ライセンス: Link先を確認
Thang Doan, Xin Li, Sima Behpour, Wenbin He, Liang Gou, Liu Ren(参考訳) open world object detection (owod)は、標準的なオブジェクト検出タスクの範囲を超えた、挑戦的で現実的なタスクである。 既知のオブジェクトと未知のオブジェクトの両方を検出し、将来のタスクのために学習知識を統合する。 しかし、「未知」のレベルは文脈によって大きく異なる。 例えば、木は一般的に、自動運転シーンの背景の一部と見なされるが、家庭の文脈では重要かもしれない。 このコンテキスト情報は、既に既知のクラスに埋め込まれるべきである。 言い換えれば、発見すべき既知の項目と未知の項目の間に、意味的あるいは潜在的な構造関係が存在するべきである。 そこで本研究では,SuperClass Regularizerを用いて既知の項目の階層的表現を学習し,モデル化するHyp-OWを提案する。 この表現を活用することで、類似度距離に基づくレザベリングモジュールを使用して、未知のオブジェクトを効果的に検出できる。 ベンチマークデータセットに関する広範な実験は、hyp-owの有効性を示し、既知の検出と未知検出の両方(最大6%)の改善を達成している。 これらの発見は、新しく設計されたベンチマークで特に顕著であり、既知のオブジェクトと未知のオブジェクトの間に強い階層構造が存在する。 私たちのコードはhttps://github.com/boschresearch/Hyp-OWにある。

Open World Object Detection (OWOD) is a challenging and realistic task that extends beyond the scope of standard Object Detection task. It involves detecting both known and unknown objects while integrating learned knowledge for future tasks. However, the level of "unknownness" varies significantly depending on the context. For example, a tree is typically considered part of the background in a self-driving scene, but it may be significant in a household context. We argue that this contextual information should already be embedded within the known classes. In other words, there should be a semantic or latent structure relationship between the known and unknown items to be discovered. Motivated by this observation, we propose Hyp-OW, a method that learns and models hierarchical representation of known items through a SuperClass Regularizer. Leveraging this representation allows us to effectively detect unknown objects using a similarity distance-based relabeling module. Extensive experiments on benchmark datasets demonstrate the effectiveness of Hyp-OW, achieving improvement in both known and unknown detection (up to 6 percent). These findings are particularly pronounced in our newly designed benchmark, where a strong hierarchical structure exists between known and unknown objects. Our code can be found at https://github.com/boschresearch/Hyp-OW
翻訳日:2024-02-16 12:23:36 公開日:2024-02-15
# 分散SGDアルゴリズムの安定性と一般化保証の改善

Improved Stability and Generalization Guarantees of the Decentralized SGD Algorithm ( http://arxiv.org/abs/2306.02939v3 )

ライセンス: Link先を確認
Batiste Le Bars, Aur\'elien Bellet, Marc Tommasi, Kevin Scaman, Giovanni Neglia(参考訳) 本稿では,アルゴリズムの安定性に基づく分散確率勾配 Descent (D-SGD) の新しい一般化誤差解析法を提案する。 その結果,分散化による不安定性の増大と,疎結合な通信グラフが一般化に与える影響が示唆された。 逆に、凸、強凸、非凸関数に対して、D-SGDは古典的なSGDと類似した一般化境界を常に回復できることを示し、グラフの選択は重要でないことを示唆する。 そして、この結果は最悪のケース解析の結果であり、一般凸関数に対して洗練されたデータ依存の一般化を提供する。 この新たなバウンドは、グラフの選択によって特定のレジームにおける最悪のケースバウンドを実際に改善することができること、そして驚くほど、接続の悪いグラフが有益であることを示している。

This paper presents a new generalization error analysis for Decentralized Stochastic Gradient Descent (D-SGD) based on algorithmic stability. The obtained results overhaul a series of recent works that suggested an increased instability due to decentralization and a detrimental impact of poorly-connected communication graphs on generalization. On the contrary, we show, for convex, strongly convex and non-convex functions, that D-SGD can always recover generalization bounds analogous to those of classical SGD, suggesting that the choice of graph does not matter. We then argue that this result is coming from a worst-case analysis, and we provide a refined data-dependent generalization bound for general convex functions. This new bound reveals that the choice of graph can in fact improve the worst-case bound in certain regimes, and that surprisingly, a poorly-connected graph can even be beneficial.
翻訳日:2024-02-16 12:23:16 公開日:2024-02-15
# DAPR:Document-Aware Passage Retrievalのベンチマーク

DAPR: A Benchmark on Document-Aware Passage Retrieval ( http://arxiv.org/abs/2305.13915v3 )

ライセンス: Link先を確認
Kexin Wang, Nils Reimers, Iryna Gurevych(参考訳) これまでのニューラル検索は、短いテキストのランク付けに重点を置いており、長い文書に挑戦している。 ユーザは、ウィキペディアの記事や研究論文など、巨大なコーパスから、長いドキュメントの中で関連するパスを見つけたい場合が多い。 本稿では,このタスクをDAPR (emph{Document-Aware Passage Retrieval}) と呼ぶ。 State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5\%)は文書コンテキストの欠如に起因する。 これにより、異種ドメインからの複数のデータセットを含むこのタスクのベンチマークを構築することができます。 実験では,(1)BM25によるハイブリッド検索と(2)コンテキスト化された文節表現を用いて,文書コンテキストによる文節表現を通知することで,文書コンテキストでSoTAの文節検索を拡張した。 ハイブリット検索は,難解なクエリと難解なクエリが混在するクエリでは最強であるにもかかわらず,文書コンテキストの理解を必要とするハードクエリでは完全に失敗する。 一方、コンテクスト化された文節表現(例えば、先行する文書のタイトル)は、これらの難解なクエリを良く改善するが、全体的な性能もかなり悪い。 提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。 コードとデータはhttps://github.com/ukplab/arxiv2023-daprで入手できる。

The work of neural retrieval so far focuses on ranking short texts and is challenged with long documents. There are many cases where the users want to find a relevant passage within a long document from a huge corpus, e.g. Wikipedia articles, research papers, etc. We propose and name this task \emph{Document-Aware Passage Retrieval} (DAPR). While analyzing the errors of the State-of-The-Art (SoTA) passage retrievers, we find the major errors (53.5\%) are due to missing document context. This drives us to build a benchmark for this task including multiple datasets from heterogeneous domains. In the experiments, we extend the SoTA passage retrievers with document context via (1) hybrid retrieval with BM25 and (2) contextualized passage representations, which inform the passage representation with document context. We find despite that hybrid retrieval performs the strongest on the mixture of the easy and the hard queries, it completely fails on the hard queries that require document-context understanding. On the other hand, contextualized passage representations (e.g. prepending document titles) achieve good improvement on these hard queries, but overall they also perform rather poorly. Our created benchmark enables future research on developing and comparing retrieval systems for the new task. The code and the data are available at https://github.com/UKPLab/arxiv2023-dapr.
翻訳日:2024-02-16 12:23:00 公開日:2024-02-15
# FedMT: 混合型ラベルによるフェデレーションラーニング

FedMT: Federated Learning with Mixed-type Labels ( http://arxiv.org/abs/2210.02042v4 )

ライセンス: Link先を確認
Qiong Zhang, Jing Peng, Xin Zhang, Aline Talhouk, Gang Niu, Xiaoxiao Li(参考訳) フェデレーション学習(fl)では、分類器(ディープネットワークなど)は複数のデータセンターからデータを交換することなくデータセット上でトレーニングされ、サンプル効率が向上する。 しかしながら、従来のfl設定では、関連するすべてのデータセンタで同じラベリング基準を仮定しており、実用性が制限されている。 この制限は、異なる臨床センターが異なる基準に準拠する可能性がある病気の診断のような領域で特に顕著になり、従来のFLメソッドは適さない。 本稿では、FLと混合型ラベルを併用したFLの重要かつ未探索な設定に対処し、異なるラベル付け基準の許容度が中心間ラベル空間の相違をもたらす。 この課題を効果的かつ効率的に解決するために,ラベル空間対応やプロジェクト分類スコアを推定して損失関数を構築するfedmtと呼ばれるモデル非依存アプローチを導入する。 提案したFedMTは汎用的であり、FedAvgのような様々なFLメソッドとシームレスに統合される。 ベンチマークと医学データセットの実験結果は、混在型ラベルの存在下でFedMTが達成した分類精度の大幅な改善を浮き彫りにした。

In federated learning (FL), classifiers (e.g., deep networks) are trained on datasets from multiple data centers without exchanging data across them, which improves the sample efficiency. However, the conventional FL setting assumes the same labeling criterion in all data centers involved, thus limiting its practical utility. This limitation becomes particularly notable in domains like disease diagnosis, where different clinical centers may adhere to different standards, making traditional FL methods unsuitable. This paper addresses this important yet under-explored setting of FL, namely FL with mixed-type labels, where the allowance of different labeling criteria introduces inter-center label space differences. To address this challenge effectively and efficiently, we introduce a model-agnostic approach called FedMT, which estimates label space correspondences and projects classification scores to construct loss functions. The proposed FedMT is versatile and integrates seamlessly with various FL methods, such as FedAvg. Experimental results on benchmark and medical datasets highlight the substantial improvement in classification accuracy achieved by FedMT in the presence of mixed-type labels.
翻訳日:2024-02-16 12:22:33 公開日:2024-02-15
# グラフニューラルネットワークの準同型数:その基礎について

Homomorphism Counts for Graph Neural Networks: All About That Basis ( http://arxiv.org/abs/2402.08595v2 )

ライセンス: Link先を確認
Emily Jin, Michael Bronstein, Ismail Ilkan Ceylan, Matthias Lanzinger(参考訳) グラフニューラルネットワークは、グラフ上で不変関数を学ぶためのアーキテクチャである。 多くの研究がグラフニューラルネットワークの特性を調査し、特に表現力に関するいくつかの制限を特定している。 グラフ内の特定のパターン(例えばサイクル)を数えることのできないことは、そのような制限の中心にある。 2つの顕著なパラダイムは、グラフの特徴をグラフや同型パターン数で豊かにすることで、この制限に対処することを目指している。 本研究では,これら2つのアプローチが,ある意味では準最適であることを示すとともに,対象パターンの「ベイズ」における全ての構造の準同型数を組み込んだ,よりきめ細かいアプローチを主張する。 これにより、既存のアプローチに比べて計算複雑性の面で追加のオーバーヘッドを伴わずに、厳密に表現力のあるアーキテクチャが得られる。 ノードレベルおよびグラフレベルのモチーフパラメータに関する一連の理論的結果が証明され、標準ベンチマークデータセットで実証的に検証される。

Graph neural networks are architectures for learning invariant functions over graphs. A large body of work has investigated the properties of graph neural networks and identified several limitations, particularly pertaining to their expressive power. Their inability to count certain patterns (e.g., cycles) in a graph lies at the heart of such limitations, since many functions to be learned rely on the ability of counting such patterns. Two prominent paradigms aim to address this limitation by enriching the graph features with subgraph or homomorphism pattern counts. In this work, we show that both of these approaches are sub-optimal in a certain sense and argue for a more fine-grained approach, which incorporates the homomorphism counts of all structures in the "basis" of the target pattern. This yields strictly more expressive architectures without incurring any additional overhead in terms of computational complexity compared to existing approaches. We prove a series of theoretical results on node-level and graph-level motif parameters and empirically validate them on standard benchmark datasets.
翻訳日:2024-02-16 12:19:05 公開日:2024-02-15
# 大規模言語モデルにおけるパーソナリティ特性の抽出

Eliciting Personality Traits in Large Language Models ( http://arxiv.org/abs/2402.08341v2 )

ライセンス: Link先を確認
Airlie Hilliard, Cristian Munoz, Zekun Wu and Adriano Soares Koshiyama(参考訳) 大規模言語モデル(LLM)は採用状況において、候補者と雇用主の両方が利用している。 しかし、これには多くの倫理的懸念があり、特にこれらの「ブラックボックス」モデルにおける透明性の欠如に関連している。 従来の研究は、LLMの性格特性を調査することで、これらのモデルの透明性を高めようとしてきたが、過去の研究の多くは、完成すべき個性評価を提供してきた。 一方,本研究では,異なる入力プロンプトに基づいて出力変動を調べることにより,モデルをよりよく理解することを目指す。 具体的には、一般的な面接質問から導かれるプロンプトと、特定の5つの人格特性を引き出すためのプロンプトを用いて、モデルが人間のような特性活性化に影響を与えているかどうかを調べ、そのアウトプットに使用される言語に基づいて人格を測定する。 Llama-2, Falcon, Mistral, Bloom, GPT, OPT, XLNet (base and fine tuned version) など,パラメータサイズの異なる複数のLMを繰り返し、myPersonalityデータセットでトレーニングされた分類器を用いてそれらの個性を検証した。 以上の結果より, LLM は開度が高く,外転率も低いことが明らかとなった。 しかし、パラメータの少ないlmsはパーソナリティ特性に類似した振る舞いを示すのに対し、より多くのパラメータを持つ新規およびlmsは、より広いパーソナリティ特性を示し、一致性、感情的安定性、開放性が増す。 さらに、より多くのパラメータが開度と良性と関連している。 さらに、微調整されたモデルは、データセットに基づいて、そのパーソナリティ特性に小さな変調を示す。 今後の研究の意図と方向性について論じる。

Large Language Models (LLMs) are increasingly being utilized by both candidates and employers in the recruitment context. However, with this comes numerous ethical concerns, particularly related to the lack of transparency in these "black-box" models. Although previous studies have sought to increase the transparency of these models by investigating the personality traits of LLMs, many of the previous studies have provided them with personality assessments to complete. On the other hand, this study seeks to obtain a better understanding of such models by examining their output variations based on different input prompts. Specifically, we use a novel elicitation approach using prompts derived from common interview questions, as well as prompts designed to elicit particular Big Five personality traits to examine whether the models were susceptible to trait-activation like humans are, to measure their personality based on the language used in their outputs. To do so, we repeatedly prompted multiple LMs with different parameter sizes, including Llama-2, Falcon, Mistral, Bloom, GPT, OPT, and XLNet (base and fine tuned versions) and examined their personality using classifiers trained on the myPersonality dataset. Our results reveal that, generally, all LLMs demonstrate high openness and low extraversion. However, whereas LMs with fewer parameters exhibit similar behaviour in personality traits, newer and LMs with more parameters exhibit a broader range of personality traits, with increased agreeableness, emotional stability, and openness. Furthermore, a greater number of parameters is positively associated with openness and conscientiousness. Moreover, fine-tuned models exhibit minor modulations in their personality traits, contingent on the dataset. Implications and directions for future research are discussed.
翻訳日:2024-02-16 12:18:28 公開日:2024-02-15
# BASE TTS:100K時間データを用いた10億パラメータテキスト音声モデルの構築から学んだこと

BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data ( http://arxiv.org/abs/2402.08093v2 )

ライセンス: Link先を確認
Mateusz {\L}ajszczak, Guillermo C\'ambara, Yang Li, Fatih Beyhan, Arent van Korlaar, Fan Yang, Arnaud Joly, \'Alvaro Mart\'in-Cortinas, Ammar Abbas, Adam Michalski, Alexis Moinet, Sri Karlapati, Ewa Muszy\'nska, Haohan Guo, Bartosz Putrycz, Soledad L\'opez Gambino, Kayeon Yoo, Elena Sokolova, Thomas Drugman(参考訳) これは$\textbf{b}$ig$\textbf{a}$daptive$\textbf{s}$treamable ttsの略で、$\textbf{e}$mergent能力を持つ。 BASE TTSは、これまでで最大のTSモデルであり、パブリックドメインの音声データ100K時間で訓練され、音声の自然性において新たな最先端を達成する。 原文を離散符号("speechcodes")に変換し、さらに畳み込みベースのデコーダを使用してこれらの音声コードをインクリメンタルで流線型に波形に変換する1億パラメータの自己回帰トランスフォーマーをデプロイする。 さらに,話者IDのアンタングル化とバイトペア符号化による圧縮を特徴とする,新しい音声トークン化手法を用いて音声符号化を行う。 データ量の増加を訓練する際、大規模言語モデルの「創発的能力」が広く報告されているのを反映して、10K以上の時間と500M以上のパラメータで構築されたBASE TTSの変種が、テキストに複雑な文に自然な韻律を呈示し始めた。 テキストから音声への創発的能力を測定するために,特殊なデータセットを設計し,共有する。 本稿では,YourTTS,Bark,TortoiseTTSなどの大規模音声合成システムを含むベースラインに対する評価により,BASE TTSの最先端の自然性を示す。 モデルによって生成されたオーディオサンプルはhttps://amazon-ltts-paper.com/で確認できる。

We introduce a text-to-speech (TTS) model called BASE TTS, which stands for $\textbf{B}$ig $\textbf{A}$daptive $\textbf{S}$treamable TTS with $\textbf{E}$mergent abilities. BASE TTS is the largest TTS model to-date, trained on 100K hours of public domain speech data, achieving a new state-of-the-art in speech naturalness. It deploys a 1-billion-parameter autoregressive Transformer that converts raw texts into discrete codes ("speechcodes") followed by a convolution-based decoder which converts these speechcodes into waveforms in an incremental, streamable manner. Further, our speechcodes are built using a novel speech tokenization technique that features speaker ID disentanglement and compression with byte-pair encoding. Echoing the widely-reported "emergent abilities" of large language models when trained on increasing volume of data, we show that BASE TTS variants built with 10K+ hours and 500M+ parameters begin to demonstrate natural prosody on textually complex sentences. We design and share a specialized dataset to measure these emergent abilities for text-to-speech. We showcase state-of-the-art naturalness of BASE TTS by evaluating against baselines that include publicly available large-scale text-to-speech systems: YourTTS, Bark and TortoiseTTS. Audio samples generated by the model can be heard at https://amazon-ltts-paper.com/.
翻訳日:2024-02-16 12:17:59 公開日:2024-02-15
# 言語フィードバックモデルを用いた政策改善

Policy Improvement using Language Feedback Models ( http://arxiv.org/abs/2402.07876v2 )

ライセンス: Link先を確認
Victor Zhong, Dipendra Misra, Xingdi Yuan, Marc-Alexandre C\^ot\'e(参考訳) 本稿では,言語フィードバックモデル (LFM) を導入し,指示文で指定されたタスクを遂行する上で望ましい行動,すなわち指示文の模倣学習を支援する。 LFMを訓練するために,言語記述に適応した視覚的軌跡に対するLarge Language Models (LLMs) からのフィードバックを得た。 まず, 3つの異なる言語基盤環境(タッチダウン, サイエンスワールド, ALFWorld)において, LFMを用いて望ましい行動を特定することにより, 強力な行動クローニングベースラインよりもタスク補完率を向上させる。 第2に、LPMの出力トークン数を制御する場合、LSMを専門家として使用してアクションを直接予測する。 第3に、LFMは未確認環境に一般化し、1ラウンドの適応によりタスク完了率を3.5-12.0%向上させる。 最後に、LCMは人間の解釈可能なフィードバックを性能損失なく提供し、模倣学習に望ましい行動の人間による検証を可能にする。

We introduce Language Feedback Models (LFMs) that identify desirable behaviour - actions that help achieve tasks specified in the instruction - for imitation learning in instruction following. To train LFMs, we obtain feedback from Large Language Models (LLMs) on visual trajectories verbalized to language descriptions. First, by using LFMs to identify desirable behaviour to imitate, we improve in task-completion rate over strong behavioural cloning baselines on three distinct language grounding environments (Touchdown, ScienceWorld, and ALFWorld). Second, LFMs outperform using LLMs as experts to directly predict actions, when controlling for the number of LLM output tokens. Third, LFMs generalize to unseen environments, improving task-completion rate by 3.5-12.0% through one round of adaptation. Finally, LFM can be modified to provide human-interpretable feedback without performance loss, allowing human verification of desirable behaviour for imitation learning.
翻訳日:2024-02-16 12:17:24 公開日:2024-02-15
# クープマン作用素による時間領域の一般化

Generalizing across Temporal Domains with Koopman Operators ( http://arxiv.org/abs/2402.07834v2 )

ライセンス: Link先を確認
Qiuhao Zeng, Wei Wang, Fan Zhou, Gezheng Xu, Ruizhi Pu, Changjian Shui, Christian Gagne, Shichun Yang, Boyu Wang, Charles X. Ling(参考訳) ドメイン一般化の分野では、ターゲットデータにアクセスせずに対象ドメインに一般化できる予測モデルを構築するという課題は依然として難しい。 ドメイン間のダイナミクスの進化を考えると、この問題はさらに複雑になる。 この問題に対処するために様々なアプローチが提案されているが、基礎となる一般化理論の包括的理解はまだ欠けている。 本研究では,条件分布の整合が一般化境界の低減に繋がる新しい理論的結果を提案する。 我々の分析は、クープマンニューラル演算子を用いて時間領域一般化(TDG)問題を解くための鍵となる動機となり、結果としてテンポラルクープマンネットワーク(TKNet)が生まれる。 コープマン作用素を用いることにより、tdgで遭遇する時間発展分布をコープマン理論の原理を用いて効果的に解決する。 合成および実世界のデータセットを用いた実証評価により,提案手法の有効性を検証した。

In the field of domain generalization, the task of constructing a predictive model capable of generalizing to a target domain without access to target data remains challenging. This problem becomes further complicated when considering evolving dynamics between domains. While various approaches have been proposed to address this issue, a comprehensive understanding of the underlying generalization theory is still lacking. In this study, we contribute novel theoretic results that aligning conditional distribution leads to the reduction of generalization bounds. Our analysis serves as a key motivation for solving the Temporal Domain Generalization (TDG) problem through the application of Koopman Neural Operators, resulting in Temporal Koopman Networks (TKNets). By employing Koopman Operators, we effectively address the time-evolving distributions encountered in TDG using the principles of Koopman theory, where measurement functions are sought to establish linear transition relations between evolving domains. Through empirical evaluations conducted on synthetic and real-world datasets, we validate the effectiveness of our proposed approach.
翻訳日:2024-02-16 12:17:04 公開日:2024-02-15
# OS-Copilot: 自己改善型汎用コンピュータエージェントを目指して

OS-Copilot: Towards Generalist Computer Agents with Self-Improvement ( http://arxiv.org/abs/2402.07456v2 )

ライセンス: Link先を確認
Zhiyong Wu, Chengcheng Han, Zichen Ding, Zhenmin Weng, Zhoumianze Liu, Shunyu Yao, Tao Yu and Lingpeng Kong(参考訳) コンピュータとの自律的なインタラクションは、大きな可能性を秘めた長年の課題であり、近年の大規模言語モデル(llm)の普及は、デジタルエージェントの構築の進展を著しく加速している。 しかし、これらのエージェントのほとんどは特定のソフトウェアやウェブサイトのような狭いドメインと相互作用するように設計されている。 この狭い焦点は、一般的なコンピュータタスクに適用性を制限する。 この目的のために,OS-Copilotは,Web,コード端末,ファイル,マルチメディア,各種サードパーティアプリケーションなど,オペレーティングシステム(OS)の包括的要素と対話可能な汎用エージェントを構築するためのフレームワークである。 我々はOS-Copilotを使って、汎用コンピュータタスクを自動化する自己改善型実施エージェントであるFRIDAYを開発した。 一般的なAIアシスタントのベンチマークであるGAIAでは、FRIDAYが従来の手法を35%上回り、以前のタスクから蓄積したスキルを通じて、目に見えないアプリケーションへの強力な一般化を示している。 また、FRIDAYがExcelとPowerpointの制御と自己改善を最小限の監督で学んでいることの数値的および定量的証拠を示す。 当社のos-copilotフレームワークと経験的知見は,より有能で汎用的なコンピュータエージェントに向けた今後の研究のためのインフラストラクチャと洞察を提供する。

Autonomous interaction with the computer has been a longstanding challenge with great potential, and the recent proliferation of large language models (LLMs) has markedly accelerated progress in building digital agents. However, most of these agents are designed to interact with a narrow domain, such as a specific software or website. This narrow focus constrains their applicability for general computer tasks. To this end, we introduce OS-Copilot, a framework to build generalist agents capable of interfacing with comprehensive elements in an operating system (OS), including the web, code terminals, files, multimedia, and various third-party applications. We use OS-Copilot to create FRIDAY, a self-improving embodied agent for automating general computer tasks. On GAIA, a general AI assistants benchmark, FRIDAY outperforms previous methods by 35%, showcasing strong generalization to unseen applications via accumulated skills from previous tasks. We also present numerical and quantitative evidence that FRIDAY learns to control and self-improve on Excel and Powerpoint with minimal supervision. Our OS-Copilot framework and empirical findings provide infrastructure and insights for future research toward more capable and general-purpose computer agents.
翻訳日:2024-02-16 12:16:46 公開日:2024-02-15
# Re-DiffiNet:拡散モデルを用いた腫瘍セグメンテーションにおける異常損失のモデル化

Re-DiffiNet: Modeling discrepancies loss in tumor segmentation using diffusion models ( http://arxiv.org/abs/2402.07354v3 )

ライセンス: Link先を確認
Tianyi Ren, Abhishek Sharma, Juampablo Heras Rivera, Harshitha Rebala, Ethan Honey, Agamdeep Chopra, Jacob Ruzevick, Mehmet Kurt(参考訳) 腫瘍マージンの同定はグリオ芽腫の外科的決定に不可欠であり、神経外科医に信頼できる支援を提供する。 長年にわたって腫瘍セグメンテーションのためのディープラーニングアーキテクチャは改善されてきたが、臨床現場に適した完全自律システムの構築は、まだモデル予測が臨床応用に望まれる精度と一般化のレベルに達していないため、大きな課題である。 生成的モデリング技術は近年大きく改善されている。 具体的には、GAN(Generative Adversarial Networks)とDDPM(Denoising-Diffusion-based Model)を使用して、より少ないアーティファクトとより微細な属性で高品質な画像を生成する。 本稿では, DDPMを用いて, U-Netのようなセグメンテーションモデルの出力と基底真実との相違をモデル化するRe-Diffinetというフレームワークを紹介する。 差分を明示的にモデル化することにより、最新のU-Netセグメンテーションモデルと比較して、Diceスコアの0.55\%、HD95の16.28\%が5倍以上のクロスバリデーションから平均的に改善されていることを示す。

Identification of tumor margins is essential for surgical decision-making for glioblastoma patients and provides reliable assistance for neurosurgeons. Despite improvements in deep learning architectures for tumor segmentation over the years, creating a fully autonomous system suitable for clinical floors remains a formidable challenge because the model predictions have not yet reached the desired level of accuracy and generalizability for clinical applications. Generative modeling techniques have seen significant improvements in recent times. Specifically, Generative Adversarial Networks (GANs) and Denoising-diffusion-based models (DDPMs) have been used to generate higher-quality images with fewer artifacts and finer attributes. In this work, we introduce a framework called Re-Diffinet for modeling the discrepancy between the outputs of a segmentation model like U-Net and the ground truth, using DDPMs. By explicitly modeling the discrepancy, the results show an average improvement of 0.55\% in the Dice score and 16.28\% in HD95 from cross-validation over 5-folds, compared to the state-of-the-art U-Net segmentation model.
翻訳日:2024-02-16 12:15:58 公開日:2024-02-15
# 超伝導量子ビット上の動的デコヒーレンスフリー部分空間とサブシステム

Dynamically Generated Decoherence-Free Subspaces and Subsystems on Superconducting Qubits ( http://arxiv.org/abs/2402.07278v2 )

ライセンス: Link先を確認
Gregory Quiroz, Bibek Pokharel, Joseph Boen, Lina Tewala, Vinay Tripathi, Devon Williams, Lian-Ao Wu, Paraj Titum, Kevin Schultz, Daniel Lidar(参考訳) デコヒーレンスフリー部分空間とサブシステム(dfs)は、デコヒーレンスに影響されない対称性保護状態へ量子情報を符号化することで量子情報を保存する。 与えられた実験系に固有のDFSは存在しないかもしれないが、動的デカップリング(DD)を用いることで、DFSをサポートする対称性を誘導することができる。 ここではDD生成DFS論理量子ビットの最初の実験例を示す。 IBM Quantum 超伝導プロセッサを用いて、最大6ビットと7ビットの非相互作用論理量子ビットからなる2ビットと3ビットの DFS コードを調べる。 DDと誤り検出の組み合わせにより,DFS論理量子ビットはDD単独の物理量子ビットよりも最大で23%の保存精度の向上を達成できることを示す。 これにより、DFS符号化量子ビットの非破壊的な忠実性向上が実現される。 本稿では,量子プロセッサ上での論理エンコーディングによる計算精度の向上に向けた経路として,dfs符号の潜在的有用性を示す。

Decoherence-free subspaces and subsystems (DFS) preserve quantum information by encoding it into symmetry-protected states unaffected by decoherence. An inherent DFS of a given experimental system may not exist; however, through the use of dynamical decoupling (DD), one can induce symmetries that support DFSs. Here, we provide the first experimental demonstration of DD-generated DFS logical qubits. Utilizing IBM Quantum superconducting processors, we investigate two and three-qubit DFS codes comprising up to six and seven noninteracting logical qubits, respectively. Through a combination of DD and error detection, we show that DFS logical qubits can achieve up to a 23% improvement in state preservation fidelity over physical qubits subject to DD alone. This constitutes a beyond-breakeven fidelity improvement for DFS-encoded qubits. Our results showcase the potential utility of DFS codes as a pathway toward enhanced computational accuracy via logical encoding on quantum processors.
翻訳日:2024-02-16 12:15:32 公開日:2024-02-15
# エージェントが行動する理由:意図と道具的目標

The Reasons that Agents Act: Intention and Instrumental Goals ( http://arxiv.org/abs/2402.07221v2 )

ライセンス: Link先を確認
Francis Rhys Ward and Matt MacDermott and Francesco Belardinelli and Francesca Toni and Tom Everitt(参考訳) 意図はAIにおいて重要で挑戦的な概念である。 それは、エージェンシー、操作、法的責任、責任など、私たちが気にしている他の多くの概念の根底にあるため重要です。 しかし、AIシステムに対する意図の主張は論争的であり、AIエージェントに適用できる意図の普遍的な理論は存在しない。 我々は,エージェントが決定を下す理由に関して,エージェントが行動する意図を運用する。 本研究では,構造因果影響モデルにおける意図の形式的定義を導入し,意図に関する哲学文献に基礎を置き,実世界の機械学習システムに適用する。 多くの例と結果を通して、我々の定義は意図の直感的な概念を捉え、過去の作業によって設定されたデシダラタを満足させることを示す。 さらに、我々の定義が、実際の因果関係を含む過去の概念や、安全なaiエージェントに関する文献の核となる概念である道具的目標の概念とどのように関係しているかを示す。 最後に,強化学習エージェントと言語モデルの意図を行動から推測するために,我々の定義をどのように利用できるかを示す。

Intention is an important and challenging concept in AI. It is important because it underlies many other concepts we care about, such as agency, manipulation, legal responsibility, and blame. However, ascribing intent to AI systems is contentious, and there is no universally accepted theory of intention applicable to AI agents. We operationalise the intention with which an agent acts, relating to the reasons it chooses its decision. We introduce a formal definition of intention in structural causal influence models, grounded in the philosophy literature on intent and applicable to real-world machine learning systems. Through a number of examples and results, we show that our definition captures the intuitive notion of intent and satisfies desiderata set-out by past work. In addition, we show how our definition relates to past concepts, including actual causality, and the notion of instrumental goals, which is a core idea in the literature on safe AI agents. Finally, we demonstrate how our definition can be used to infer the intentions of reinforcement learning agents and language models from their behaviour.
翻訳日:2024-02-16 12:15:18 公開日:2024-02-15
# PaDeLLM-NER: 名前付きエンティティ認識のための大規模言語モデルにおける並列デコーディング

PaDeLLM-NER: Parallel Decoding in Large Language Models for Named Entity Recognition ( http://arxiv.org/abs/2402.04838v4 )

ライセンス: Link先を確認
Jinghui Lu, Ziwei Yang, Yanjie Wang, Xuejing Liu, Brian Mac Namee, Can Huang(参考訳) 本研究では,Large Language Models (LLMs) を用いた Named Entity Recognition (NER) の生成遅延を低減することを目的とする。 LLMにおける高遅延の主な原因はシーケンシャルデコーディングプロセスであり、全てのラベルとNERへの言及を自動回帰的に生成し、シーケンス長を大幅に増加させる。 llm for ne} (padellm-ner)は、モジュールの追加やアーキテクチャの変更を必要とせず、既存の生成モデルフレームワークにシームレスに統合するアプローチである。 PaDeLLM-NERはすべての参照の同時復号化を可能にし、生成遅延を低減する。 実験の結果、PaDeLLM-NERは英語と中国語の自己回帰手法の1.76倍から10.22倍の推論速度を著しく向上させることがわかった。 同時に、さまざまなデータセットにわたる最先端のパフォーマンスが示すように、予測の品質も維持する。

In this study, we aim to reduce generation latency for Named Entity Recognition (NER) with Large Language Models (LLMs). The main cause of high latency in LLMs is the sequential decoding process, which autoregressively generates all labels and mentions for NER, significantly increase the sequence length. To this end, we introduce Parallel Decoding in LLM for NE} (PaDeLLM-NER), a approach that integrates seamlessly into existing generative model frameworks without necessitating additional modules or architectural modifications. PaDeLLM-NER allows for the simultaneous decoding of all mentions, thereby reducing generation latency. Experiments reveal that PaDeLLM-NER significantly increases inference speed that is 1.76 to 10.22 times faster than the autoregressive approach for both English and Chinese. Simultaneously it maintains the quality of predictions as evidenced by the performance that is on par with the state-of-the-art across various datasets.
翻訳日:2024-02-16 12:14:29 公開日:2024-02-15
# 長編エゴセントリックビデオにおける質疑応答

Grounded Question-Answering in Long Egocentric Videos ( http://arxiv.org/abs/2312.06505v3 )

ライセンス: Link先を確認
Shangzhe Di and Weidi Xie(参考訳) ビデオ理解への既存のアプローチは、主に第三者の視点からの短いビデオ用に設計されており、ロボット工学などの特定の分野における適用性に制限がある。 本稿では,個人やロボットが過去の視覚的体験を尋ねることのできる,長くてエゴセントリックなビデオで,オープンエンドな質問回答(QA)を探索する。 この課題は、広範囲なビデオコンテンツにおけるクエリの時間的グラウンド化の複雑さ、正確なデータアノテーションに対する高いリソース要求、そのあいまいさによるオープンな回答評価の難しさなど、ユニークな課題を示す。 提案手法はこれらの課題に対処する i) クエリグラウンディングと応答を統一モデルに統合し、エラーの伝搬を低減すること。 (二)大規模言語モデルによる効率的かつスケーラブルなデータ合成 三 回答のあいまいさを管理するため、評価のためのクローズドなQAタスクを導入すること。 また,QAEgo4DおよびEgo4D-NLQベンチマークにおいて,最先端性能を実現する手法の有効性を示す。 コード、データ、モデルはhttps://github.com/becomebright/groundvqaで入手できる。

Existing approaches to video understanding, mainly designed for short videos from a third-person perspective, are limited in their applicability in certain fields, such as robotics. In this paper, we delve into open-ended question-answering (QA) in long, egocentric videos, which allows individuals or robots to inquire about their own past visual experiences. This task presents unique challenges, including the complexity of temporally grounding queries within extensive video content, the high resource demands for precise data annotation, and the inherent difficulty of evaluating open-ended answers due to their ambiguous nature. Our proposed approach tackles these challenges by (i) integrating query grounding and answering within a unified model to reduce error propagation; (ii) employing large language models for efficient and scalable data synthesis; and (iii) introducing a close-ended QA task for evaluation, to manage answer ambiguity. Extensive experiments demonstrate the effectiveness of our method, which also achieves state-of-the-art performance on the QAEgo4D and Ego4D-NLQ benchmarks. Code, data, and models are available at https://github.com/Becomebright/GroundVQA.
翻訳日:2024-02-16 12:13:34 公開日:2024-02-15
# 情報理論リワードモデリングによるリワードハッキングの軽減

Mitigating Reward Hacking via Information-Theoretic Reward Modeling ( http://arxiv.org/abs/2402.09345v2 )

ライセンス: Link先を確認
Yuchun Miao, Sen Zhang, Liang Ding, Rong Bao, Lefei Zhang, Dacheng Tao(参考訳) 人的フィードバック(rlhf)からの強化学習が言語モデルと人間の価値の整合に成功しても、報酬ハッキングは報酬過剰最適化(reward overoptimization)とも呼ばれ、主に報酬モデリングの制限、すなわち報酬モデルの一般化可能性と選好データセットの一貫性の欠如に起因する重要な課題である。 そこで本研究では,情報理論のパースペクティブからこの問題に取り組み,無関係な情報をフィルタリングし,モデル複雑性変調のメカニズムを開発するための変分的情報ボトルネック目標を導入することで,報奨モデリングの一般化とロバストな枠組みを提案する。 特に,潜伏空間における過最適化と外れ値の相関関係を更に同定し,報酬過最適化を検出するための有望なツールとしてInfoRMを確立した。 この発見にインスパイアされたICDS(Integrated Cluster Deviation Score)は,オンライン緩和戦略の開発を促進するための報酬過度最適化の指標として,潜在空間における偏差を定量化する。 幅広い設定とモデルスケール(70M, 440M, 1.4B, 7B)に関する大規模な実験はInfoRMの有効性を支持する。 さらに分析した結果,InfoRMの過度な最適化検出機構が有効であることが判明した。 コードは受理時にリリースされる。

Despite the success of reinforcement learning from human feedback (RLHF) in aligning language models with human values, reward hacking, also termed reward overoptimization, remains a critical challenge, which primarily stems from limitations in reward modeling, i.e., generalizability of the reward model and inconsistency in the preference dataset. In this work, we tackle this problem from an information theoretic-perspective, and propose a generalizable and robust framework for reward modeling, namely InfoRM, by introducing a variational information bottleneck objective to filter out irrelevant information and developing a mechanism for model complexity modulation. Notably, we further identify a correlation between overoptimization and outliers in the latent space, establishing InfoRM as a promising tool for detecting reward overoptimization. Inspired by this finding, we propose the Integrated Cluster Deviation Score (ICDS), which quantifies deviations in the latent space, as an indicator of reward overoptimization to facilitate the development of online mitigation strategies. Extensive experiments on a wide range of settings and model scales (70M, 440M, 1.4B, and 7B) support the effectiveness of InfoRM. Further analyses reveal that InfoRM's overoptimization detection mechanism is effective, potentially signifying a notable advancement in the field of RLHF. Code will be released upon acceptance.
翻訳日:2024-02-16 12:06:30 公開日:2024-02-15
# 逆問題の解消のためのニューラルネットワーク漸近的行動

Neural Networks Asymptotic Behaviours for the Resolution of Inverse Problems ( http://arxiv.org/abs/2402.09338v2 )

ライセンス: Link先を確認
Luigi Del Debbio, Manuel Naviglio, Francesco Tarantelli(参考訳) 本稿では,量子場理論だけでなく,より一般的な文脈においても,デコンボリューション逆問題に対するニューラルネットワーク(nn)手法の有効性について検討する。 NNの漸近的限界はガウス過程(GP)に対応しており、NNのパラメータの非線形性は無視できる。 これらの結果のGPを用いて、格子上のモンテカルロ法でシミュレートされた量子調和振動子の場合のデコンボリューション逆問題に対処する。 この単純な玩具モデルでは、反転の結果を既知の解析解と比較することができる。 以上の結果から,NNの漸近的限界から得られるGPよりも,逆問題に対するNNの解法は性能が低いことが示唆された。 さらに,層幅の増大とともにgpsに接近するnnの訓練精度も観察した。 特に、これらのGPの1つは確率モデルとしての解釈を否定し、文献の確立された方法と比較して新しい視点を提供する。 以上の結果から,より現実的なセットアップにおけるトレーニングダイナミクスの詳細な研究の必要性が示唆された。

This paper presents a study of the effectiveness of Neural Network (NN) techniques for deconvolution inverse problems relevant for applications in Quantum Field Theory, but also in more general contexts. We consider NN's asymptotic limits, corresponding to Gaussian Processes (GPs), where non-linearities in the parameters of the NN can be neglected. Using these resulting GPs, we address the deconvolution inverse problem in the case of a quantum harmonic oscillator simulated through Monte Carlo techniques on a lattice. In this simple toy model, the results of the inversion can be compared with the known analytical solution. Our findings indicate that solving the inverse problem with a NN yields less performing results than those obtained using the GPs derived from NN's asymptotic limits. Furthermore, we observe the trained NN's accuracy approaching that of GPs with increasing layer width. Notably, one of these GPs defies interpretation as a probabilistic model, offering a novel perspective compared to established methods in the literature. Our results suggest the need for detailed studies of the training dynamics in more realistic set-ups.
翻訳日:2024-02-16 12:06:04 公開日:2024-02-15
# EcoVal: 機械学習のための効率的なデータ評価フレームワーク

EcoVal: An Efficient Data Valuation Framework for Machine Learning ( http://arxiv.org/abs/2402.09288v2 )

ライセンス: Link先を確認
Ayush K Tarun, Vikram S Chundawat, Murari Mandal, Hong Ming Tan, Bowei Chen, Mohan Kankanhalli(参考訳) 機械学習ワークフローにおけるデータの価値の定量化は、機械学習イニシアチブにおいて、より戦略的決定を行う上で重要な役割を果たす。 機械学習におけるデータ評価のための既存のshapley値ベースのフレームワークは、shapley値を得るためにモデルを繰り返し訓練する必要があるため、計算コストが高い。 本稿では,機械学習モデルにおけるデータの価値を高速かつ実用的な方法で推定する効率的なデータ評価フレームワークecovalを提案する。 個々のデータサンプルを直接扱う代わりに、類似したデータポイントのクラスタの値を決定します。 この値は、すべてのメンバークラスタポイントにさらに伝播する。 その結果,各データの固有値および余剰値を推定することで,総合的なデータ値を決定することができることがわかった。 これは、伝統的な自由経済市場における労働や資本といった要因に基づいて生産量を見積もるために広く用いられる概念である、 \textit{production function} としてモデルのパフォーマンスを定式化することによって実現される。 我々は,評価手法の形式的証明を提供し,その高速化を実現する原理とメカニズムを明らかにする。 本手法の現実的な適用性は,分布内データとサンプル外データの両方に対して有効性を示すことで実証する。 この研究は、機械学習モデルにおいて、大規模で効率的なデータバリュエーションのコア課題の1つに対処する。

Quantifying the value of data within a machine learning workflow can play a pivotal role in making more strategic decisions in machine learning initiatives. The existing Shapley value based frameworks for data valuation in machine learning are computationally expensive as they require considerable amount of repeated training of the model to obtain the Shapley value. In this paper, we introduce an efficient data valuation framework EcoVal, to estimate the value of data for machine learning models in a fast and practical manner. Instead of directly working with individual data sample, we determine the value of a cluster of similar data points. This value is further propagated amongst all the member cluster points. We show that the overall data value can be determined by estimating the intrinsic and extrinsic value of each data. This is enabled by formulating the performance of a model as a \textit{production function}, a concept which is popularly used to estimate the amount of output based on factors like labor and capital in a traditional free economic market. We provide a formal proof of our valuation technique and elucidate the principles and mechanisms that enable its accelerated performance. We demonstrate the real-world applicability of our method by showcasing its effectiveness for both in-distribution and out-of-sample data. This work addresses one of the core challenges of efficient data valuation at scale in machine learning models.
翻訳日:2024-02-16 12:05:46 公開日:2024-02-15
# グラフ畳み込みニューラルネットワークを用いた構造動的クラッシュシミュレーションのための多階層型サーロゲート学習

Multi-Hierarchical Surrogate Learning for Structural Dynamical Crash Simulations Using Graph Convolutional Neural Networks ( http://arxiv.org/abs/2402.09234v2 )

ライセンス: Link先を確認
Jonas Kneifl, J\"org Fehr, Steven L. Brunton, J. Nathan Kutz(参考訳) 衝突シミュレーションは、車両の安全性、設計最適化、損傷リスク推定を改善する上で重要な役割を果たす。 残念ながら、最先端の高忠実度モデルを用いたそのような問題の数値解は、かなりの計算労力を必要とする。 従来のデータ駆動サーロゲートモデリングアプローチは、この計算作業を回避するために、ダイナミクスを進化させるための低次元埋め込みを生成する。 殆どの手法は数値離散化から得られる高分解能データを直接操作するが、これは空間距離の広い情報の流れのマッピングに費用がかかり複雑である。 さらに、固定解像度で作業することで、可変演算能力、異なる可視化解像度、異なる精度要求を持つ環境へのサロゲートモデルの適応が防止される。 そこで本稿では,カートフレームの一連のサロゲートモデルを構造的に生成する多階層的フレームワークを提案する。 マルチスケール現象では、マクロスケールの特徴は粗いサーロゲートで捉えられ、マイクロスケール効果はより細かいものによって解決される。 個々のサロゲートの学習行動は、伝達学習を通じて粗いレベルからより細かいレベルに渡される。 具体的には,kartモデル上でメッシュ簡略化を行い,マルチレゾリューション表現を得る。 次に,最も粗い表現に対するパラメータ依存な低次元潜在ダイナミクスを学習する,グラフ畳み込みニューラルネットワークベースのサーロゲートを学習する。 その後、同様に構造化されたサーロゲートは、より細かい解像度を用いて第1サーロゲートの残差に基づいて訓練される。 このステップは何度も繰り返すことができる。 これにより、ハードウェア要件の異なる同一システム用の複数のサロゲートを構築し、精度を向上する。

Crash simulations play an essential role in improving vehicle safety, design optimization, and injury risk estimation. Unfortunately, numerical solutions of such problems using state-of-the-art high-fidelity models require significant computational effort. Conventional data-driven surrogate modeling approaches create low-dimensional embeddings for evolving the dynamics in order to circumvent this computational effort. Most approaches directly operate on high-resolution data obtained from numerical discretization, which is both costly and complicated for mapping the flow of information over large spatial distances. Furthermore, working with a fixed resolution prevents the adaptation of surrogate models to environments with variable computing capacities, different visualization resolutions, and different accuracy requirements. We thus propose a multi-hierarchical framework for structurally creating a series of surrogate models for a kart frame, which is a good proxy for industrial-relevant crash simulations, at different levels of resolution. For multiscale phenomena, macroscale features are captured on a coarse surrogate, whereas microscale effects are resolved by finer ones. The learned behavior of the individual surrogates is passed from coarse to finer levels through transfer learning. In detail, we perform a mesh simplification on the kart model to obtain multi-resolution representations of it. We then train a graph-convolutional neural network-based surrogate that learns parameter-dependent low-dimensional latent dynamics on the coarsest representation. Subsequently, another, similarly structured surrogate is trained on the residual of the first surrogate using a finer resolution. This step can be repeated multiple times. By doing so, we construct multiple surrogates for the same system with varying hardware requirements and increasing accuracy.
翻訳日:2024-02-16 12:05:26 公開日:2024-02-15
# もっと教えてくれ! 言語モデル駆動エージェントのユーザ意図的理解に向けて

Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents ( http://arxiv.org/abs/2402.09205v2 )

ライセンス: Link先を確認
Cheng Qian, Bingxiang He, Zhong Zhuang, Jia Deng, Yujia Qin, Xin Cong, Zhong Zhang, Jie Zhou, Yankai Lin, Zhiyuan Liu, Maosong Sun(参考訳) 現在の言語モデル駆動エージェントは、効果的なユーザー参加のためのメカニズムを欠いていることが多い。 戦略の策定やタスクの実行には適しているが、これらのエージェントは明確化と正確なユーザ意図の把握に苦慮している。 このギャップを埋めるために,明示的なクエリを通じてユーザの暗黙的な意図を検査する,新しいベンチマークであるintent-in-interaction (in3)を導入する。 次に,モデルエキスパートをエージェント設計の上流として導入し,ユーザとエージェントの対話性を高めることを提案する。 これは、タスクの曖昧さを積極的に評価し、ユーザの意図を問い合わせ、それらを下流エージェントタスクの実行を開始する前に実行可能な目標に洗練する強力なモデルです。 xagentフレームワークへの統合により,ユーザ指示の理解と実行に関する拡張エージェントシステムを包括的に評価し,このアプローチがあいまいなユーザタスクの識別,重要な欠落情報の回収と要約,正確かつ必要なエージェント実行目標の設定,冗長なツール使用の最小化,全体的な効率の向上に特に優れていることを明らかにした。 すべてのデータとコードはリリースされます。

Current language model-driven agents often lack mechanisms for effective user participation, which is crucial given the vagueness commonly found in user instructions. Although adept at devising strategies and performing tasks, these agents struggle with seeking clarification and grasping precise user intentions. To bridge this gap, we introduce Intention-in-Interaction (IN3), a novel benchmark designed to inspect users' implicit intentions through explicit queries. Next, we propose the incorporation of model experts as the upstream in agent designs to enhance user-agent interaction. Employing IN3, we empirically train Mistral-Interact, a powerful model that proactively assesses task vagueness, inquires user intentions, and refines them into actionable goals before starting downstream agent task execution. Integrating it into the XAgent framework, we comprehensively evaluate the enhanced agent system regarding user instruction understanding and execution, revealing that our approach notably excels at identifying vague user tasks, recovering and summarizing critical missing information, setting precise and necessary agent execution goals, and minimizing redundant tool usage, thus boosting overall efficiency. All the data and codes are released.
翻訳日:2024-02-16 12:04:58 公開日:2024-02-15
# 大規模言語モデルにおける(ir)合理性と認知バイアス

(Ir)rationality and Cognitive Biases in Large Language Models ( http://arxiv.org/abs/2402.09193v2 )

ライセンス: Link先を確認
Olivia Macmillan-Scott and Mirco Musolesi(参考訳) 大規模言語モデル(LLM)は合理的推論を示すか? LLMは、訓練されたデータのために人間のバイアスを含んでいることが示されている。 本稿では,認知心理学文献のタスクを用いた7つの言語モデルの評価により,この問題に答える。 人間と同じく、LLMはこれらのタスクに不合理性を示す。 しかし、この不合理さの表示方法は、人間が示したことを反映しない。 これらのタスクに対してLLMによって誤った答えが与えられる場合、それらはしばしば人間のようなバイアスとは異なる方法で間違っている。 これに加えて、LLMは反応の重大な矛盾に不合理性の付加的な層を明らかにする。 実験結果とは別に,本論文では,合理的推論に関して,これらのモデルの異なる能力の評価と比較を行う方法を示すことによって,方法論的な貢献を行おうとする。

Do large language models (LLMs) display rational reasoning? LLMs have been shown to contain human biases due to the data they have been trained on; whether this is reflected in rational reasoning remains less clear. In this paper, we answer this question by evaluating seven language models using tasks from the cognitive psychology literature. We find that, like humans, LLMs display irrationality in these tasks. However, the way this irrationality is displayed does not reflect that shown by humans. When incorrect answers are given by LLMs to these tasks, they are often incorrect in ways that differ from human-like biases. On top of this, the LLMs reveal an additional layer of irrationality in the significant inconsistency of the responses. Aside from the experimental results, this paper seeks to make a methodological contribution by showing how we can assess and compare different capabilities of these types of models, in this case with respect to rational reasoning.
翻訳日:2024-02-16 12:04:37 公開日:2024-02-15
# 急速な採用、隠れたリスク: 大きな言語モデルのカスタマイズによる2つの影響

Rapid Adoption, Hidden Risks: The Dual Impact of Large Language Model Customization ( http://arxiv.org/abs/2402.09179v2 )

ライセンス: Link先を確認
Rui Zhang, Hongwei Li, Rui Wen, Wenbo Jiang, Yuan Zhang, Michael Backes, Yun Shen, Yang Zhang(参考訳) カスタマイズされたLarge Language Models (LLM) に対する需要が増加し、GPTのようなソリューションが開発されるようになった。 これらのソリューションは、コーディングせずに自然言語のプロンプトを介してLLMをカスタマイズする。 しかし、サードパーティのカスタムバージョンのLDMの信頼性は依然として重要な懸念事項である。 本稿では、信頼できないカスタマイズ LLM (GPTs など) と統合されたアプリケーションに対する最初の命令バックドア攻撃を提案する。 具体的には、これらの攻撃はバックドア命令でプロンプトを設計し、予め定義されたトリガーを含む入力時に攻撃者が望む結果を出力することで、llmのカスタムバージョンにバックドアを埋め込む。 私たちの攻撃には、単語レベル、構文レベル、意味レベルという3つのレベルの攻撃が含まれています。 当社のアタックは微調整やバックエンドllmの変更を必要としないことを強調し、gpts開発ガイドラインに厳密に準拠している。 4つの著名なllmと5つのベンチマークテキスト分類データセットについて広範な実験を行った。 その結果,我々の命令バックドア攻撃は,実用性を損なうことなく所望のアタック性能を達成できた。 また,命令無視防御機構を提案し,そのような攻撃を緩和する部分的有効性を示す。 GPTなどのLCMカスタマイズの脆弱性と潜在的なリスクについて検討した。

The increasing demand for customized Large Language Models (LLMs) has led to the development of solutions like GPTs. These solutions facilitate tailored LLM creation via natural language prompts without coding. However, the trustworthiness of third-party custom versions of LLMs remains an essential concern. In this paper, we propose the first instruction backdoor attacks against applications integrated with untrusted customized LLMs (e.g., GPTs). Specifically, these attacks embed the backdoor into the custom version of LLMs by designing prompts with backdoor instructions, outputting the attacker's desired result when inputs contain the pre-defined triggers. Our attack includes 3 levels of attacks: word-level, syntax-level, and semantic-level, which adopt different types of triggers with progressive stealthiness. We stress that our attacks do not require fine-tuning or any modification to the backend LLMs, adhering strictly to GPTs development guidelines. We conduct extensive experiments on 4 prominent LLMs and 5 benchmark text classification datasets. The results show that our instruction backdoor attacks achieve the desired attack performance without compromising utility. Additionally, we propose an instruction-ignoring defense mechanism and demonstrate its partial effectiveness in mitigating such attacks. Our findings highlight the vulnerability and the potential risks of LLM customization such as GPTs.
翻訳日:2024-02-16 12:04:23 公開日:2024-02-15
# 大規模言語モデルの敵対的能力を探る

Exploring the Adversarial Capabilities of Large Language Models ( http://arxiv.org/abs/2402.09132v2 )

ライセンス: Link先を確認
Lukas Struppek, Minh Hieu Le, Dominik Hintersdorf, Kristian Kersting(参考訳) 大規模言語モデル(LLM)の普及は、言語生成能力の強大さにより、広く一般に関心を集め、産業と研究の両方に大きな可能性がある。 以前の研究では、LLMのセキュリティとプライバシの問題を掘り下げたものの、これらのモデルが敵対行動を示す程度は、まだ明らかにされていない。 このギャップに対処するために、一般のLLMは、テキストサンプルを摂動して安全対策を騙す能力を持っているかどうか、いわゆる逆例Respについて検討する。 攻撃。 より具体的には、LLMが本来、既存の安全レールを騙すために良質なサンプルから敵の例を作ることができるかどうかを考察する。 ヘイトスピーチ検出に着目した実験により,llmは逆行性摂動の発見に成功し,ヘイトスピーチ検出システムを効果的に損なうことが明らかとなった。 本研究は,LLMに依存する半自律システムに重要な意味を持ち,既存のシステムとの相互作用や安全対策の潜在的な課題を浮き彫りにした。

The proliferation of large language models (LLMs) has sparked widespread and general interest due to their strong language generation capabilities, offering great potential for both industry and research. While previous research delved into the security and privacy issues of LLMs, the extent to which these models can exhibit adversarial behavior remains largely unexplored. Addressing this gap, we investigate whether common publicly available LLMs have inherent capabilities to perturb text samples to fool safety measures, so-called adversarial examples resp.~attacks. More specifically, we investigate whether LLMs are inherently able to craft adversarial examples out of benign samples to fool existing safe rails. Our experiments, which focus on hate speech detection, reveal that LLMs succeed in finding adversarial perturbations, effectively undermining hate speech detection systems. Our findings carry significant implications for (semi-)autonomous systems relying on LLMs, highlighting potential challenges in their interaction with existing systems and safety measures.
翻訳日:2024-02-16 12:03:59 公開日:2024-02-15
# Unity is strength: スマートコントラクト分析ツールの一貫性脆弱性検出における精度向上

Unity is Strength: Enhancing Precision in Reentrancy Vulnerability Detection of Smart Contract Analysis Tools ( http://arxiv.org/abs/2402.09094v2 )

ライセンス: Link先を確認
Zexu Wang, Jiachi Chen, Zibin Zheng, Peilin Zheng, Yu Zhang, Weizhe Zhang(参考訳) 永続性はスマートコントラクトの最も悪名高い脆弱性の1つであり、結果として大きなデジタル資産損失をもたらす。 しかし、多くの先行研究は、現在のReentrancy検出ツールは偽陽性率が高いことを示唆している。 さらに悪いことに、近年では複雑で多様な脆弱性攻撃メカニズムによって、新たなReentrancy攻撃パターンが出現している。 残念ながら、現在のツールは、これらの進化するReentrancyパターンを適応し、検出する能力に重大な制限に直面しています。 したがって、正確かつ高度に拡張可能なリエントレンシ脆弱性検出の確保は、既存のツールにとって重要な課題である。 この問題に対処するため、ReEPというツールを提案し、Reentrancy脆弱性検出の偽陽性を減らす。 さらに、ReEPは複数のツールを統合することができ、脆弱性検出の能力を拡大できる。 既存のツールの結果を評価して脆弱性の可能性を検証し、偽陽性を減らす。 ReEPはまた、優れた拡張性を提供し、異なる検出ツールの統合により、精度を高め、異なる脆弱性攻撃パターンをカバーすることができる。 既存の8つのReEP検出ツールを実行する。 この8つのツールの平均精度は、リコールを犠牲にすることなく、元の0.5%から73%に向上した。 さらに、ReEPは堅牢な拡張性を示す。 複数のツールを統合することで、精度はさらに83.6%向上した。 これらの結果は、ReEPが既存の作業の強度を効果的に結合し、Reentrancy脆弱性検出ツールの精度を高めることを実証している。

Reentrancy is one of the most notorious vulnerabilities in smart contracts, resulting in significant digital asset losses. However, many previous works indicate that current Reentrancy detection tools suffer from high false positive rates. Even worse, recent years have witnessed the emergence of new Reentrancy attack patterns fueled by intricate and diverse vulnerability exploit mechanisms. Unfortunately, current tools face a significant limitation in their capacity to adapt and detect these evolving Reentrancy patterns. Consequently, ensuring precise and highly extensible Reentrancy vulnerability detection remains critical challenges for existing tools. To address this issue, we propose a tool named ReEP, designed to reduce the false positives for Reentrancy vulnerability detection. Additionally, ReEP can integrate multiple tools, expanding its capacity for vulnerability detection. It evaluates results from existing tools to verify vulnerability likelihood and reduce false positives. ReEP also offers excellent extensibility, enabling the integration of different detection tools to enhance precision and cover different vulnerability attack patterns. We perform ReEP to eight existing state-of-the-art Reentrancy detection tools. The average precision of these eight tools increased from the original 0.5% to 73% without sacrificing recall. Furthermore, ReEP exhibits robust extensibility. By integrating multiple tools, the precision further improved to a maximum of 83.6%. These results demonstrate that ReEP effectively unites the strengths of existing works, enhances the precision of Reentrancy vulnerability detection tools.
翻訳日:2024-02-16 12:03:39 公開日:2024-02-15
# FGeo-DRL:深部強化学習による幾何学的問題に対する導出推論

FGeo-DRL: Deductive Reasoning for Geometric Problems through Deep Reinforcement Learning ( http://arxiv.org/abs/2402.09051v2 )

ライセンス: Link先を確認
Jia Zou, Xiaokai Zhang, Yiming He, Na Zhu, Tuo Leng(参考訳) 人間のような自動推論は、数学と人工知能の学際において、常に最も困難なオープン問題の一つである。 この論文は我々の一連の作品の3番目です。 fgeodrlと呼ばれるニューラルシンボリックシステムを構築し、人間のような幾何学的推論を自動実行した。 ニューラルネットワークは強化学習に基づくAIエージェントであり、人間の監督を必要とせず、形式化された環境のフィードバックから問題解決方法を自律的に学習することができる。 事前に訓練された自然言語モデルを利用して定理選択のためのポリシーネットワークを構築し、ヒューリスティック探索にモンテカルロ木探索を用いる。 記号的部分は幾何形式化理論とフォーマルジオに基づく強化学習環境であり、GPSをマルコフ決定過程としてモデル化する。 この形式的シンボリックシステムでは、問題の既知の条件と目的が状態空間を形成し、定理の集合が作用空間を形成する。 fgeodrlを活用して,幾何問題に対する可読かつ検証可能な自動解を実現した。 フォーマルジオ7kデータセットで行った実験は86.40%の問題解決成功率を達成した。 このプロジェクトはhttps://github.com/PersonNoName/FGeoDRLで入手できる。

The human-like automatic deductive reasoning has always been one of the most challenging open problems in the interdiscipline of mathematics and artificial intelligence. This paper is the third in a series of our works. We built a neural-symbolic system, called FGeoDRL, to automatically perform human-like geometric deductive reasoning. The neural part is an AI agent based on reinforcement learning, capable of autonomously learning problem-solving methods from the feedback of a formalized environment, without the need for human supervision. It leverages a pre-trained natural language model to establish a policy network for theorem selection and employ Monte Carlo Tree Search for heuristic exploration. The symbolic part is a reinforcement learning environment based on geometry formalization theory and FormalGeo, which models GPS as a Markov Decision Process. In this formal symbolic system, the known conditions and objectives of the problem form the state space, while the set of theorems forms the action space. Leveraging FGeoDRL, we have achieved readable and verifiable automated solutions to geometric problems. Experiments conducted on the formalgeo7k dataset have achieved a problem-solving success rate of 86.40%. The project is available at https://github.com/PersonNoName/FGeoDRL.
翻訳日:2024-02-16 12:03:15 公開日:2024-02-15
# ヒューマンエージェントのアライメント向上に向けて: LLMアプリケーションにおけるタスクユーティリティの評価

Towards better Human-Agent Alignment: Assessing Task Utility in LLM-Powered Applications ( http://arxiv.org/abs/2402.09015v2 )

ライセンス: Link先を確認
Negar Arabzadeh and Julia Kiseleva and Qingyun Wu and Chi Wang and Ahmed Awadallah and Victor Dibia and Adam Fourney and Charles Clarke(参考訳) 大規模言語モデル(llm)の分野における急速な発展は、人間の日常業務を支援する複数のエージェント間のコラボレーションを促進するアプリケーションの増加につながった。 しかし、LCMを利用したアプリケーションが実際にユーザエクスペリエンスとタスク実行効率を向上させるかどうかを評価する上で、大きなギャップが残っている。 このことは、特にアプリケーションの機能とエンドユーザのニーズの整合性を確保することによって、LLMベースのアプリケーションの有用性を検証する方法の必要性を強調している。 agentevalは、特定のアプリケーションのユニークな目的に合わせた一連の基準を自動的に提案することにより、ユーティリティ検証プロセスを単純化するために設計された、新しいフレームワークである。 これにより、提案された基準に対してアプリケーションの実用性を定量化する包括的な評価が可能になる。 本稿では,量子化器の研究のロバスト性に関する包括的分析を行う。

The rapid development in the field of Large Language Models (LLMs) has led to a surge in applications that facilitate collaboration among multiple agents to assist humans in their daily tasks. However, a significant gap remains in assessing whether LLM-powered applications genuinely enhance user experience and task execution efficiency. This highlights the pressing need for methods to verify utility of LLM-powered applications, particularly by ensuring alignment between the application's functionality and end-user needs. We introduce AgentEval provides an implementation for the math problems}, a novel framework designed to simplify the utility verification process by automatically proposing a set of criteria tailored to the unique purpose of any given application. This allows for a comprehensive assessment, quantifying the utility of an application against the suggested criteria. We present a comprehensive analysis of the robustness of quantifier's work.
翻訳日:2024-02-16 12:02:58 公開日:2024-02-15
# 逆転破壊に対するロバストモデルに基づく強化学習に向けて

Towards Robust Model-Based Reinforcement Learning Against Adversarial Corruption ( http://arxiv.org/abs/2402.08991v2 )

ライセンス: Link先を確認
Chenlu Ye, Jiafan He, Quanquan Gu, Tong Zhang(参考訳) 本研究は,モデルベース強化学習(rl)における相反的破壊の課題に取り組み,相反性によって遷移ダイナミクスを崩壊させることができる。 汚損RLに関する既存の研究は、主にモデルのないRLの設定に焦点を当てており、ロバストな最小二乗回帰が値関数の推定にしばしば用いられる。 しかし、これらの手法はモデルベースRLに直接適用することはできない。 本稿では,モデルに基づくRLに着目し,最大推定(MLE)アプローチを用いて遷移モデルを学習する。 私たちの作品は、オンラインとオフラインの両方の設定を包含しています。 オンライン環境では、全変量(TV)に基づく情報比をMLEの不確実量として活用する、汚損楽観的なMLE(CR-OMLE)というアルゴリズムを導入する。 CR-OMLE が $\tilde{\mathcal{O}}(\sqrt{T} + C)$ の後悔を達成したことを証明します。 また、$C$に対する加法依存が最適であることを示す境界も低く証明する。 我々は、重み付け手法をオフライン設定に拡張し、汚損性悲観的MLE (CR-PMLE) というアルゴリズムを提案する。 均一なカバレッジ条件下では、CR-PMLEは$\mathcal{O}(C/n)$によって悪化し、下界とほぼ一致する。 私たちの知る限りでは、これは証明可能な保証を備えた腐敗-ロバストモデルに基づくrlアルゴリズムに関する最初の作業です。

This study tackles the challenges of adversarial corruption in model-based reinforcement learning (RL), where the transition dynamics can be corrupted by an adversary. Existing studies on corruption-robust RL mostly focus on the setting of model-free RL, where robust least-square regression is often employed for value function estimation. However, these techniques cannot be directly applied to model-based RL. In this paper, we focus on model-based RL and take the maximum likelihood estimation (MLE) approach to learn transition model. Our work encompasses both online and offline settings. In the online setting, we introduce an algorithm called corruption-robust optimistic MLE (CR-OMLE), which leverages total-variation (TV)-based information ratios as uncertainty weights for MLE. We prove that CR-OMLE achieves a regret of $\tilde{\mathcal{O}}(\sqrt{T} + C)$, where $C$ denotes the cumulative corruption level after $T$ episodes. We also prove a lower bound to show that the additive dependence on $C$ is optimal. We extend our weighting technique to the offline setting, and propose an algorithm named corruption-robust pessimistic MLE (CR-PMLE). Under a uniform coverage condition, CR-PMLE exhibits suboptimality worsened by $\mathcal{O}(C/n)$, nearly matching the lower bound. To the best of our knowledge, this is the first work on corruption-robust model-based RL algorithms with provable guarantees.
翻訳日:2024-02-16 12:02:44 公開日:2024-02-15
# DNABERT-S:ゲノムモデルを用いたDNA埋め込みの学習

DNABERT-S: Learning Species-Aware DNA Embedding with Genome Foundation Models ( http://arxiv.org/abs/2402.08777v2 )

ライセンス: Link先を確認
Zhihan Zhou, Weimin Wu, Harrison Ho, Jiayi Wang, Lizhen Shi, Ramana V Davuluri, Zhong Wang, Han Liu(参考訳) 効果的なDNA埋め込みは、ゲノム基盤モデルの大幅な進歩にもかかわらず、特にモデル微調整のためのラベル付きデータを持たないシナリオにおいて、ゲノム解析において重要である。 主な例としてメタゲノミクス・ビンニング(Metagenomics binning)は、微生物の研究において重要なプロセスであり、数千の異なる、しばしば非形質化された種から派生した複雑なDNA配列から、その種によってDNA配列を分類することを目的としている。 有効DNA埋め込みモデルの欠如を補うため,DNABERT-Sを導入した。 ランダムに選択された層におけるDNA配列の隠蔽表現を混合し、これらの混合比率を出力層で認識・識別するようモデルに訓練する、対照的な目的であるManifold Instance Mixup(MI-Mix)を導入する。 提案したC$^2$LR(Curriculum Contrastive Learning)戦略によりさらに強化する。 18種類のデータセットの実証結果から,DNABERT-Sは顕著な性能を示した。 これは、10ショットの種分類におけるトップベースラインのパフォーマンスを2ショットの訓練で上回り、また、調整されたランドインデックス(ARI)を2倍にし、メッサージノミクスのビンニングにおいて正しく同定された種の数を著しく増加させた。 コード、データ、事前学習されたモデルはhttps://github.com/zhihan1996/dnabert_sで公開されている。

Effective DNA embedding remains crucial in genomic analysis, particularly in scenarios lacking labeled data for model fine-tuning, despite the significant advancements in genome foundation models. A prime example is metagenomics binning, a critical process in microbiome research that aims to group DNA sequences by their species from a complex mixture of DNA sequences derived from potentially thousands of distinct, often uncharacterized species. To fill the lack of effective DNA embedding models, we introduce DNABERT-S, a genome foundation model that specializes in creating species-aware DNA embeddings. To encourage effective embeddings to error-prone long-read DNA sequences, we introduce Manifold Instance Mixup (MI-Mix), a contrastive objective that mixes the hidden representations of DNA sequences at randomly selected layers and trains the model to recognize and differentiate these mixed proportions at the output layer. We further enhance it with the proposed Curriculum Contrastive Learning (C$^2$LR) strategy. Empirical results on 18 diverse datasets showed DNABERT-S's remarkable performance. It outperforms the top baseline's performance in 10-shot species classification with just a 2-shot training while doubling the Adjusted Rand Index (ARI) in species clustering and substantially increasing the number of correctly identified species in metagenomics binning. The code, data, and pre-trained model are publicly available at https://github.com/Zhihan1996/DNABERT_S.
翻訳日:2024-02-16 12:02:13 公開日:2024-02-15
# エルゴード確率微分方程式に対する数値近似分布に対するwasserstein距離推定の補正

Correction to "Wasserstein distance estimates for the distributions of numerical approximations to ergodic stochastic differential equations" ( http://arxiv.org/abs/2402.08711v2 )

ライセンス: Link先を確認
Daniel Paulin, Peter A. Whalley(参考訳) ワーセルシュタイン-2 距離におけるエルゴード sdes の数値的離散化の非漸近的保証を分析する方法は、sanz-serna と zygalakis によって「エルゴード確率微分方程式に対する数値近似の分布に対するwasserstein距離推定」として提示された。 彼らは強い順2であり、ステップごとに1つの勾配評価しか必要としないUBU積分器を解析し、特に目標分布から離れたワッサーシュタイン-2で$\epsilon > 0$に達するための$$\mathcal{O}(d^{1/4}\epsilon^{-1/2})$のステップにおいて、望ましい非漸近保証をもたらす。 しかし、Sanz-Serna と Zygalakis (2021) の局所誤差推定には誤りがあり、特にこれらの複雑性推定を達成するためにはより強い仮定が必要である。 この注釈は、多くの関心の応用において実際に観察される次元依存性と理論を調和させる。

A method for analyzing non-asymptotic guarantees of numerical discretizations of ergodic SDEs in Wasserstein-2 distance is presented by Sanz-Serna and Zygalakis in ``Wasserstein distance estimates for the distributions of numerical approximations to ergodic stochastic differential equations". They analyze the UBU integrator which is strong order two and only requires one gradient evaluation per step, resulting in desirable non-asymptotic guarantees, in particular $\mathcal{O}(d^{1/4}\epsilon^{-1/2})$ steps to reach a distance of $\epsilon > 0$ in Wasserstein-2 distance away from the target distribution. However, there is a mistake in the local error estimates in Sanz-Serna and Zygalakis (2021), in particular, a stronger assumption is needed to achieve these complexity estimates. This note reconciles the theory with the dimension dependence observed in practice in many applications of interest.
翻訳日:2024-02-16 12:01:45 公開日:2024-02-15
# SemRel2024: 14言語用セマンティックテキスト関連データセットのコレクション

SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 14 Languages ( http://arxiv.org/abs/2402.08638v3 )

ライセンス: Link先を確認
Nedjma Ousidhoum, Shamsuddeen Hassan Muhammad, Mohamed Abdalla, Idris Abdulmumin, Ibrahim Said Ahmad, Sanchit Ahuja, Alham Fikri Aji, Vladimir Araujo, Abinew Ali Ayele, Pavan Baswani, Meriem Beloucif, Chris Biemann, Sofia Bourhim, Christine De Kock, Genet Shanko Dekebo, Oumaima Hourrane, Gopichand Kanumolu, Lokesh Madasu, Samuel Rutunda, Manish Shrivastava, Thamar Solorio, Nirmal Surange, Hailegnaw Getaneh Tilaye, Krishnapriya Vishnubhotla, Genta Winata, Seid Muhie Yimam, Saif M. Mohammad(参考訳) 意味的関連性の探索と定量化は言語表現の中心である。 LLM(Large Language Models)の機能とパフォーマンスに関する洞察を提供するなど、さまざまなNLPタスクにまたがる重要な意味を持っている。 初期のNLP研究は主に意味的類似性(しばしば英語の文脈内で)に焦点を当てていたが、代わりに意味的関連性のより広範な現象を調査した。 本稿では,14ヶ国語(アフリカーンス語,アルジェリア語,アムハラ語,英語,ハウサ語,ヒンディー語,インドネシア語,キニアルワンダ語,マラティ語,モロッコ語,現代標準アラビア語,パンジャビ語,スペイン語,テルグ語)の母語話者による新しい意味関連性データセットであるsemrelを提案する。 これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。 SemRelデータセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。 スコアは比較アノテーションフレームワークを用いて得られる。 データ収集とアノテーションプロセス、データセット構築時の課題、NLPにおけるそれらの影響と有用性について説明する。 さらに、各言語および異なる言語に対する実験を報告します。

Exploring and quantifying semantic relatedness is central to representing language. It holds significant implications across various NLP tasks, including offering insights into the capabilities and performance of Large Language Models (LLMs). While earlier NLP research primarily focused on semantic similarity, often within the English language context, we instead investigate the broader phenomenon of semantic relatedness. In this paper, we present SemRel, a new semantic relatedness dataset collection annotated by native speakers across 14 languages:Afrikaans, Algerian Arabic, Amharic, English, Hausa, Hindi, Indonesian, Kinyarwanda, Marathi, Moroccan Arabic, Modern Standard Arabic, Punjabi, Spanish, and Telugu. These languages originate from five distinct language families and are predominantly spoken in Africa and Asia -- regions characterised by a relatively limited availability of NLP resources. Each instance in the SemRel datasets is a sentence pair associated with a score that represents the degree of semantic textual relatedness between the two sentences. The scores are obtained using a comparative annotation framework. We describe the data collection and annotation processes, related challenges when building the datasets, and their impact and utility in NLP. We further report experiments for each language and across the different languages.
翻訳日:2024-02-16 12:01:21 公開日:2024-02-15