このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240225となっている論文です。

PDF登録状況(公開日: 20240225)

TitleAuthorsAbstract論文公表日・翻訳日
# 機械学習データセットのプライバシ保護を強化するための現状的アプローチ:サーベイ

State-of-the-Art Approaches to Enhancing Privacy Preservation of Machine Learning Datasets: A Survey ( http://arxiv.org/abs/2404.16847v1 )

ライセンス: Link先を確認
Chaoyu Zhang, (参考訳) 本稿では,プライバシ保存機械学習(PPML)の新たな分野に焦点をあて,機械学習(ML)の進化する状況と,その様々な分野における大きな影響について考察する。 MLアプリケーションは、通信、金融技術、監視といった産業にとってますます不可欠なものになりつつあるため、プライバシー上の懸念を生じさせ、PPML戦略の開発を必要としている。 この論文では、モデル出力やトレーニングデータから機密情報を推測する能力など、潜在的な敵の多様な能力に起因した、MLフレームワーク内のプライバシ保護におけるユニークな課題を強調している。 我々は、メンバーシップや属性推論からデータ再構成まで、敵の意図を特徴づける脅威モデルのスペクトルを探索する。 本稿では,プライバシに敏感な情報を最小化するためにトレーニングデータを精査し,プライバシーを守るためにデータ処理技術を強化することに焦点を当て,トレーニングデータの機密性と整合性を維持することの重要性を強調した。 本稿では,集中型および協調型学習環境におけるプライバシー漏洩リスクの包括的分析と対策を通じて,MLトレーニングデータをプライバシ侵害から保護するための効果的な戦略を深く理解することを目的とする。 データプライバシとモデルユーティリティのバランスについて検討し、暗号化手法、微分プライバシ、信頼された実行環境を活用するプライバシー保護技術に光を当てている。 この議論は、これらのテクニックをセンシティブなドメインに適用することにまで拡張され、PPMLがMLシステムのプライバシとセキュリティを確保する上で重要な役割を担っている。

This paper examines the evolving landscape of machine learning (ML) and its profound impact across various sectors, with a special focus on the emerging field of Privacy-preserving Machine Learning (PPML). As ML applications become increasingly integral to industries like telecommunications, financial technology, and surveillance, they raise significant privacy concerns, necessitating the development of PPML strategies. The paper highlights the unique challenges in safeguarding privacy within ML frameworks, which stem from the diverse capabilities of potential adversaries, including their ability to infer sensitive information from model outputs or training data. We delve into the spectrum of threat models that characterize adversarial intentions, ranging from membership and attribute inference to data reconstruction. The paper emphasizes the importance of maintaining the confidentiality and integrity of training data, outlining current research efforts that focus on refining training data to minimize privacy-sensitive information and enhancing data processing techniques to uphold privacy. Through a comprehensive analysis of privacy leakage risks and countermeasures in both centralized and collaborative learning settings, this paper aims to provide a thorough understanding of effective strategies for protecting ML training data against privacy intrusions. It explores the balance between data privacy and model utility, shedding light on privacy-preserving techniques that leverage cryptographic methods, Differential Privacy, and Trusted Execution Environments. The discussion extends to the application of these techniques in sensitive domains, underscoring the critical role of PPML in ensuring the privacy and security of ML systems.
翻訳日:2024-07-01 11:39:16 公開日:2024-02-25
# 逆問題に対する生成検索エンジンのロバスト性評価

Evaluating Robustness of Generative Search Engine on Adversarial Factual Questions ( http://arxiv.org/abs/2403.12077v1 )

ライセンス: Link先を確認
Xuming Hu, Xiaochuan Li, Junzhe Chen, Yinghui Li, Yangning Li, Xiaoguang Li, Yasheng Wang, Qun Liu, Lijie Wen, Philip S. Yu, Zhijiang Guo, (参考訳) 生成検索エンジンは、人々がオンラインで情報を求める方法を変える可能性があるが、既存の大規模言語モデル(LLM)が支援する生成検索エンジンからの応答は必ずしも正確ではないかもしれない。 にもかかわらず、検索が強化された世代は、主張の最も脆弱な部分を微妙に操作することで、敵がシステム全体を回避できるため、安全上の懸念をさらに高める。 そこで本研究では,ブラックボックスシステムにのみアクセス可能な生成検索エンジンの高リスク環境でのロバスト性を評価し,そのモデルから誤った応答を返却する方法を提案する。 本稿では,Bing Chat,PerplexityAI,YouChatなどの多種多様な生成検索エンジンの総合的評価を通じて,不適切な応答を誘導する対人的事実質問の有効性を実証する。 さらに, 検索拡張生成は, 検索不要のLLMに比べて, 事実誤りに対する感受性が高い。 これらの知見は、これらのシステムの潜在的なセキュリティリスクを強調し、展開前に厳密な評価の必要性を強調している。

Generative search engines have the potential to transform how people seek information online, but generated responses from existing large language models (LLMs)-backed generative search engines may not always be accurate. Nonetheless, retrieval-augmented generation exacerbates safety concerns, since adversaries may successfully evade the entire system by subtly manipulating the most vulnerable part of a claim. To this end, we propose evaluating the robustness of generative search engines in the realistic and high-risk setting, where adversaries have only black-box system access and seek to deceive the model into returning incorrect responses. Through a comprehensive human evaluation of various generative search engines, such as Bing Chat, PerplexityAI, and YouChat across diverse queries, we demonstrate the effectiveness of adversarial factual questions in inducing incorrect responses. Moreover, retrieval-augmented generation exhibits a higher susceptibility to factual errors compared to LLMs without retrieval. These findings highlight the potential security risks of these systems and emphasize the need for rigorous evaluation before deployment.
翻訳日:2024-03-25 07:36:54 公開日:2024-02-25
# スマートグリッドアプリケーションのサイバーセキュリティのためのChatGPTおよびその他の大規模言語モデル

ChatGPT and Other Large Language Models for Cybersecurity of Smart Grid Applications ( http://arxiv.org/abs/2311.05462v2 )

ライセンス: Link先を確認
Aydin Zaboli, Seong Lok Choi, Tai-Jin Song, Junho Hong, (参考訳) 電気変電所を標的とするサイバーセキュリティ違反は、電力網の完全性に対する重大な脅威であり、包括的な防衛と緩和戦略を必要としている。 情報通信技術(ICT)のあらゆる異常は、デジタルサブステーションにおけるデバイス間のセキュアな通信のために検出されるべきである。 本稿では, IEC 61850 ベースのディジタルサブステーション通信におけるサイバーセキュリティのための大規模言語モデル (LLM) である ChatGPT を提案する。 ケーススタディでは汎用オブジェクト指向システムイベント(GOOSE)やサンプル値(SV)などのマルチキャストメッセージが使用される。 提案されているLLMベースのサイバーセキュリティフレームワークは、通信システムのデータ前処理とHuman-in-the-loop(HITL)トレーニング(人間によって推奨されるサイバーセキュリティガイドラインを考える)を初めて含む。 その結果,LLMの性能評価指標に基づいて検出された異常データの比較分析を行った。 ハードウェア・イン・ザ・ループ(HIL)テストベッドを使用して、IEC 61850通信のデータセットを生成し、抽出する。

Cybersecurity breaches targeting electrical substations constitute a significant threat to the integrity of the power grid, necessitating comprehensive defense and mitigation strategies. Any anomaly in information and communication technology (ICT) should be detected for secure communications between devices in digital substations. This paper proposes large language models (LLM), e.g., ChatGPT, for the cybersecurity of IEC 61850-based digital substation communications. Multicast messages such as generic object oriented system event (GOOSE) and sampled value (SV) are used for case studies. The proposed LLM-based cybersecurity framework includes, for the first time, data pre-processing of communication systems and human-in-the-loop (HITL) training (considering the cybersecurity guidelines recommended by humans). The results show a comparative analysis of detected anomaly data carried out based on the performance evaluation metrics for different LLMs. A hardware-in-the-loop (HIL) testbed is used to generate and extract dataset of IEC 61850 communications.
翻訳日:2024-03-18 23:41:48 公開日:2024-02-25
# Wi-FiネットワークにおけるオフパスTCPハイジャック:パケットサイズサイドチャネル攻撃

Off-Path TCP Hijacking in Wi-Fi Networks: A Packet-Size Side Channel Attack ( http://arxiv.org/abs/2402.12716v2 )

ライセンス: Link先を確認
Ziqiang Wang, Xuewei Feng, Qi Li, Kun Sun, Yuxiang Yang, Mengyuan Li, Ke Xu, Jianping Wu, (参考訳) 本稿では、Wi-Fiネットワークにおける基本的なサイドチャネル、特に観測可能なフレームサイズを明らかにし、攻撃者がTCPハイジャック攻撃を行うために利用することができる。 各種セキュリティ機構(WEP,WPA2/WPA3)がWi-Fiネットワークを保護するために実装されているにもかかわらず,オフパス攻撃者は,フレームサイズ側チャネルから十分な情報を抽出して,被害者のTCP接続を乗っ取ることができる。 我々のサイドチャネルアタックは2つの重要な発見に基づいている。 (i)TCP受信機が生成する応答パケット(eg,ACK,RST)はサイズによって異なる。 (II)これらの応答パケットを含む暗号化フレームは、一貫した、識別可能なサイズである。 被害者の暗号化されたフレームのサイズを観察することで、攻撃者は被害者のTCP接続を検出しハイジャックすることができる。 我々は,このサイドチャネル攻撃の有効性を,SSH DoSとWebトラフィック操作という2つのケーススタディを通じて検証した。 さらに,実際のWi-Fiネットワークに対する攻撃の影響を評価するため,広範囲な測定を行った。 私たちは9つの有名なベンダーから人気の高い30台のワイヤレスルータをテストしています。 また、実世界の80のWi-Fiネットワークで攻撃を実行し、69(86%)で被害者のTCP接続をハイジャックしました。 我々は、Wi-Fi Allianceの脆弱性を責任を持って開示し、この問題に対処するためのいくつかの緩和戦略を提案しました。

In this paper, we unveil a fundamental side channel in Wi-Fi networks, specifically the observable frame size, which can be exploited by attackers to conduct TCP hijacking attacks. Despite the various security mechanisms (e.g., WEP and WPA2/WPA3) implemented to safeguard Wi-Fi networks, our study reveals that an off path attacker can still extract sufficient information from the frame size side channel to hijack the victim's TCP connection. Our side channel attack is based on two significant findings: (i) response packets (e.g., ACK and RST) generated by TCP receivers vary in size, and (ii) the encrypted frames containing these response packets have consistent and distinguishable sizes. By observing the size of the victim's encrypted frames, the attacker can detect and hijack the victim's TCP connections. We validate the effectiveness of this side channel attack through two case studies, i.e., SSH DoS and web traffic manipulation. Furthermore, we conduct extensive measurements to evaluate the impact of our attack on real-world Wi-Fi networks. We test 30 popular wireless routers from 9 well-known vendors, and none of these routers can protect victims from our attack. Also, we implement our attack in 80 real-world Wi-Fi networks and successfully hijack the victim's TCP connections in 69 (86%) evaluated Wi-Fi networks. We have responsibly disclosed the vulnerability to the Wi-Fi Alliance and proposed several mitigation strategies to address this issue.
翻訳日:2024-03-18 07:28:31 公開日:2024-02-25
# FedFDP: 公正性と差別的なプライバシを備えたフェデレーション学習

FedFDP: Federated Learning with Fairness and Differential Privacy ( http://arxiv.org/abs/2402.16028v1 )

ライセンス: Link先を確認
Xinpeng Ling, Jie Fu, Zhili Chen, Kuncan Wang, Huifa Li, Tong Cheng, Guanying Xu, Qin Li, (参考訳) Federated Learning(FL)は、データサイロの課題を克服する新しい機械学習パラダイムであり、大きな注目を集めている。 しかし、我々の観察により、グローバルに効果的に訓練されたモデルは、異なるクライアントでパフォーマンスの相違が生じる可能性がある。 これは、クライアントが共同でトレーニングしたモデルが不公平な結果をもたらす可能性を示唆している。 一方、関連する研究では、連合学習における勾配やモデルの伝達が、メンバーシップ推論攻撃などのプライバシー漏洩問題を引き起こす可能性があることを示唆している。 上記の問題に対処するため、FedFairと呼ばれる公平性のあるフェデレーションアルゴリズムを提案する。 FedFairに基づいて、上記の2つ目の問題に対処するため、FedFDPアルゴリズムを形成するためにプライバシ保護を導入します。 FedFDPでは、公正度を調整しながら差分プライバシーを実現するために、公平性を考慮したクリッピング戦略を考案する。 さらに, 付加的なアップロード損失値に対して, 有効性を最大化するための適応的クリッピング手法を提案する。 さらに、我々のアルゴリズムが収束し、差分プライバシーを保証することを理論的に証明する。 最後に、FedFairとFedFDPは、モデル性能と公正性の観点から、最先端のソリューションを著しく上回っていることを示す。 コードはhttps://anonymous.4open.science/r/FedFDP-E754でアクセスできる。

Federated learning (FL) is a new machine learning paradigm to overcome the challenge of data silos and has garnered significant attention. However, through our observations, a globally effective trained model may performance disparities in different clients. This implies that the jointly trained models by clients may lead to unfair outcomes. On the other hand, relevant studies indicate that the transmission of gradients or models in federated learning can also give rise to privacy leakage issues, such as membership inference attacks. To address the first issue mentioned above, we propose a federated algorithm with fairness, termed FedFair. Building upon FedFair, we introduce privacy protection to form the FedFDP algorithm to address the second issue mentioned above. In FedFDP, we devise a fairness-aware clipping strategy to achieve differential privacy while adjusting fairness. Additionally, for the extra uploaded loss values, we present an adaptive clipping approach to maximize utility. Furthermore, we theoretically prove that our algorithm converges and ensures differential privacy. Lastly, Extensive experimental results demonstrate that FedFair and FedFDP significantly outperforms state-of-the-art solutions in terms of model performance and fairness. The code is accessible at https://anonymous.4open.science/r/FedFDP-E754.
翻訳日:2024-03-18 07:18:43 公開日:2024-02-25
# フェデレートラーニングにおけるハイパーパラメータのプライベートチューニング法 : ベンチマークスタディからの考察

How to Privately Tune Hyperparameters in Federated Learning? Insights from a Benchmark Study ( http://arxiv.org/abs/2402.16087v1 )

ライセンス: Link先を確認
Natalija Mitic, Apostolos Pyrgelis, Sinem Sav, (参考訳) 本稿では,クロスサイロ・フェデレーション・ラーニング(FL)におけるプライバシ保存型ハイパーパラメータ(HP)チューニングの問題に対処する。 まず、FLに適した様々なHP戦略をベンチマークする総合的な測定研究を行う。 ベンチマークの結果、FLサーバの最適パラメータ、例えば学習速度は、各クライアントがローカルデータに基づいて検出したHPに基づいて正確かつ効率的に調整できることがわかった。 我々は、HP平均化がiid設定に適していることを示し、密度ベースのクラスタリングは非iid設定のパラメータの最適セットを明らかにすることができることを示した。 そして、クライアントのローカルHPの交換による情報漏洩を防止するため、多党同型暗号を用いたプライバシ保存HPチューニングのための新しいフレームワークであるPrivTunaを設計、実装する。 プライバシ保存型フェデレーションと密度に基づくクラスタリングの実装にPrivTunaを用い,その計算/通信効率とハイパーパラメータのチューニング精度を実験的に評価した。

In this paper, we address the problem of privacy-preserving hyperparameter (HP) tuning for cross-silo federated learning (FL). We first perform a comprehensive measurement study that benchmarks various HP strategies suitable for FL. Our benchmarks show that the optimal parameters of the FL server, e.g., the learning rate, can be accurately and efficiently tuned based on the HPs found by each client on its local data. We demonstrate that HP averaging is suitable for iid settings, while density-based clustering can uncover the optimal set of parameters in non-iid ones. Then, to prevent information leakage from the exchange of the clients' local HPs, we design and implement PrivTuna, a novel framework for privacy-preserving HP tuning using multiparty homomorphic encryption. We use PrivTuna to implement privacy-preserving federated averaging and density-based clustering, and we experimentally evaluate its performance demonstrating its computation/communication efficiency and its precision in tuning hyperparameters.
翻訳日:2024-03-18 07:18:43 公開日:2024-02-25
# 遅延ゼロデータストリームのBistochasticallyprivateリリース

Bistochastically private release of data streams with zero delay ( http://arxiv.org/abs/2402.16094v1 )

ライセンス: Link先を確認
Nicolas Ruiz, (参考訳) プライバシーと統計的開示制御の研究の大部分は静的データのために設計されているが、多くのデータが継続的ストリームとして収集され、このシナリオのために人気のあるプライバシツールとモデルの拡張が提案されている。 しかし、これらの提案のほとんどはバッファを必要としており、入ってくる個人は即座に保存され、匿名化され、遅延後に解放される。 遅延が必然的にデータの鮮度を変えるだけでなく、より重要なことは、保護と情報保存の観点から達成できることに不規則に制約を課す。 本稿では, 動的データの観点から, ランダム化応答, 特に最近のビストチャスティック拡張を考慮し, 正式なプライバシ保証を示しながら, 遅延をゼロにするデータストリームの匿名化プロトコルを提案する。 プライバシ文学において,基本的可視的識別性の概念を導入する新たなツールを用いることで,バッチ処理ではなく,ストリームに入る個体の原子的処理を実現することが可能であることを示す。 提案手法の応用を実証的な例で説明する。

Although the bulk of the research in privacy and statistical disclosure control is designed for static data, more and more data are often collected as continuous streams, and extensions of popular privacy tools and models have been proposed for this scenario. However, most of these proposals require buffers, where incoming individuals are momentarily stored, anonymized, and then released following a delay, thus considering a data stream as a succession of batches while it is by nature continuous. Having a delay unavoidably alters data freshness but also, more critically, inordinately exerts constraints on what can be achieved in terms of protection and information preservation. By considering randomized response, and specifically its recent bistochastic extension, in the context of dynamic data, this paper proposes a protocol for the anonymization of data streams that achieves zero delay while exhibiting formal privacy guarantees. Using a new tool in the privacy literature that introduces the concept of elementary plausible deniability, we show that it is feasible to achieve an atomic processing of individuals entering a stream, in-stead of proceeding by batches. We illustrate the application of the proposed approach by an empirical example.
翻訳日:2024-03-18 07:18:43 公開日:2024-02-25
# chainBoost: ブロックチェーンベースのリソース市場のためのセキュアなパフォーマンス向上ツール

chainBoost: A Secure Performance Booster for Blockchain-based Resource Markets ( http://arxiv.org/abs/2402.16095v1 )

ライセンス: Link先を確認
Zahra Motaqy, Mohamed E. Najd, Ghada Almashaqbeh, (参考訳) 暗号通貨とブロックチェーン技術は、デジタルサービスを再構築するための革新的なモデルを提供する。 Web 3.0への移行によって、最近のシステムは、通貨交換媒体の上に計算アウトソーシングやファイルストレージなどの分散サービスを提供し始めた。 誰でも参加して、他人に仕える暗号通貨の支払いを収集できるようにすることで、これらのシステムはデジタルリソースを取引するための分散市場を創出する。 しかし、これらの市場の約束と実用性の間にはまだ大きなギャップがある。 既存のイニシアチブはまだ初期段階にあり、すでにセキュリティと効率の障害に直面している。 同時に、有望なアイデア、特にサイドチェーンに関する既存の作業は、これらの問題に対処する潜在能力の活用に不足しています。 このギャップを埋めるため、分散リソース市場のための安全なパフォーマンス向上剤である chainBoost を提案する。 サービス関連の操作を高速化し、ブロックチェーンサイズを削減し、低オーバーヘッドでフレキシブルなサービス支払い交換モダリティをサポートする。 chainBoostの中核はサイドチェーンで、メインチェーンとの(セキュリティとセマンティック)相互依存性を持ち、システムが重/頻繁な操作をオフロードする。 これを実現するために、一時的かつ永続的なブロックからなる新しいサイドチェーンアーキテクチャ、サイドチェーンをプルークするブロック抑制機構、両チェーン間の任意のデータ交換を許可する同期プロトコル、堅牢性とレジリエンスをサポートする自己回復プロトコルを開発する。 chainBoostのセキュリティを分析し、分散ファイルストレージ市場のための概念実証プロトタイプをユースケースとして実装する。 ラウンド当たり2000トランザクションの市場処理では,スループットが最大11倍,確認時間が94倍に向上した。 chainBoostがメインのブロックチェーンサイズを約90%削減できることも示している。

Cryptocurrencies and blockchain technology provide an innovative model for reshaping digital services. Driven by the movement toward Web 3.0, recent systems started to provide distributed services, such as computation outsourcing or file storage, on top of the currency exchange medium. By allowing anyone to join and collect cryptocurrency payments for serving others, these systems create decentralized markets for trading digital resources. Yet, there is still a big gap between the promise of these markets and their practical viability. Existing initiatives are still early-stage and have already encountered security and efficiency obstacles. At the same time, existing work around promising ideas, specifically sidechains, fall short in exploiting their full potential in addressing these problems. To bridge this gap, we propose chainBoost, a secure performance booster for decentralized resource markets. It expedites service related operations, reduces the blockchain size, and supports flexible service-payment exchange modalities at low overhead. At its core, chainBoost employs a sidechain, that has a (security and semantic) mutual-dependence with the mainchain, to which the system offloads heavy/frequent operations. To enable it, we develop a novel sidechain architecture composed of temporary and permanent blocks, a block suppression mechanism to prune the sidechain, a syncing protocol to permit arbitrary data exchange between the two chains, and an autorecovery protocol to support robustness and resilience. We analyze the security of chainBoost, and implement a proof-of-concept prototype for a distributed file storage market as a use case. For a market handling around 2000 transactions per round, our experiments show up to 11x improvement in throughput and 94\% reduction in confirmation time. They also show that chainBoost can reduce the main blockchain size by around 90%.
翻訳日:2024-03-18 07:18:43 公開日:2024-02-25
# Honeybee: ブロックチェーンデータシャーディングのための検証可能なランダムウォークを備えた分散ピアサンプリング

Honeybee: Decentralized Peer Sampling with Verifiable Random Walks for Blockchain Data Sharding ( http://arxiv.org/abs/2402.16201v1 )

ライセンス: Link先を確認
Yunqi Zhang, Shaileshh Bojja Venkatakrishnan, (参考訳) データシャーディング – ブロックデータがシャーディング計算なしでシャーディングされる – は,Ethereumのスケールアップに好都合なアプローチである。 データシャーディングを実装する上で重要な課題は、ブロックのデータ全体がネットワーク(シャード全体)で利用可能かどうかを検証することだ。 この検証を行うために提案された中心的な手法は、消去符号化ブロックを使用しており、データアベイラビリティサンプリング(DAS)と呼ばれる。 DASの高レベルプロトコルの詳細はコミュニティでよく議論されているが、このようなプロトコルがピアツーピア層でどのように実装されるかは議論されていない。 本研究では,DASを行うために必要な基本的プリミティブとしてノードのランダムサンプリングと,検証可能なランダムウォークを用いたサンプリングノードの分散アルゴリズムであるHoneybeeを同定する。 Honeybeeは、多数のビザンチンノード(ネットワークの50%など)が存在する場合でも、攻撃に対して安全である。 我々はハチを実験により評価し、ハチによる採集の質が最先端技術と比較して著しく良いことを示した。 提案アルゴリズムは全ノードと軽ノードの両方においてDAS関数に影響を及ぼす。

Data sharding - in which block data is sharded without sharding compute - is at the present the favored approach for scaling Ethereum. A key challenge toward implementing data sharding is verifying whether the entirety of a block's data is available in the network (across its shards). A central technique proposed to conduct this verification uses erasure coded blocks and is called data availability sampling (DAS). While the high-level protocol details of DAS has been well discussed in the community, discussions around how such a protocol will be implemented at the peer-to-peer layer are lacking. We identify random sampling of nodes as a fundamental primitive necessary to carry out DAS and present Honeybee, a decentralized algorithm for sampling node that uses verifiable random walks. Honeybee is secure against attacks even in the presence of a large number of Byzantine nodes (e.g., 50% of the network). We evaluate Honeybee through experiments and show that the quality of sampling achieved by Honeybee is significantly better compared to the state-of-the-art. Our proposed algorithm has implications for DAS functions in both full nodes and light nodes.
翻訳日:2024-03-18 07:18:43 公開日:2024-02-25
# ユーザの意思決定過程におけるジェンダーバイザーズ法ケース検索システム

Gender Biased Legal Case Retrieval System on Users' Decision Process ( http://arxiv.org/abs/2403.00814v1 )

ライセンス: Link先を確認
Ruizhe Zhang, Qingyao Ai, Yiqun Liu, Yueyue Wu and Beining Wang(参考訳) 過去10年間で、訴訟検索は、法律実務者の仕事の重要な部分となっている。 訴訟検索中、検索エンジンは大量のデータから関連する多くのケースを検索し、ユーザーに提供します。 しかし、これらのケースが性別に偏っているか、そのような偏見がユーザーの知覚に影響を与えているかは定かではない。 審査員が関連する事例の読解をシミュレートする新しいユーザ実験フレームワークを設計した。 72人の参加者が参加して実験を行った。 参加者は, 3件の刑事事件の審理において, 裁判官の役割をシミュレートし, 被告の判決を決定するよう依頼された。 この課題と関連する事例の両方において被告の性別を編集し, 事例検索結果における性別バイアスが参加者の知覚に及ぼす影響を統計的に測定した。 その結果, 判例検索結果における性別バイアスは, 裁判官の認識に有意な影響を及ぼさなかった。

In the last decade, legal case search has become an important part of a legal practitioner's work. During legal case search, search engines retrieval a number of relevant cases from huge amounts of data and serve them to users. However, it is uncertain whether these cases are gender-biased and whether such bias has impact on user perceptions. We designed a new user experiment framework to simulate the judges' reading of relevant cases. 72 participants with backgrounds in legal affairs invited to conduct the experiment. Participants were asked to simulate the role of the judge in conducting a legal case search on 3 assigned cases and determine the sentences of the defendants in these cases. Gender of the defendants in both the task and relevant cases was edited to statistically measure the effect of gender bias in the legal case search results on participants' perceptions. The results showed that gender bias in the legal case search results did not have a significant effect on judges' perceptions.
翻訳日:2024-03-11 00:02:19 公開日:2024-02-25
# UrbanGPT:時空間大言語モデル

UrbanGPT: Spatio-Temporal Large Language Models ( http://arxiv.org/abs/2403.00813v1 )

ライセンス: Link先を確認
Zhonghang Li, Lianghao Xia, Jiabin Tang, Yong Xu, Lei Shi, Long Xia, Dawei Yin, Chao Huang(参考訳) 時空間予測は、時間と空間の両方にわたる都市環境の変化を予測し、洞察することを目的としている。 その目的は、交通、人口移動、犯罪率など、都市生活の様々な側面における将来のパターン、傾向、出来事を予測することである。 時空間データを正確に予測するためのニューラルネットワーク手法の開発に多くの努力がなされているが、これらの手法の多くは正確な時空間表現を生成するのに十分なラベル付きデータを持つことに大きく依存していることに注意する必要がある。 残念なことに、データ不足の問題は、実用的な都市センシングシナリオに広まります。 したがって、様々な時空間学習シナリオにまたがる強い一般化能力を持つ時空間モデルを構築する必要がある。 大規模言語モデル(LLM)の卓越した成果からインスピレーションを得て,広範囲の下流都市課題にまたがる卓越した一般化能力を発揮できる時空間LLMを作ることが目的である。 この目的を達成するために,時空間依存エンコーダと命令チューニングパラダイムをシームレスに統合するUrbanGPTを提案する。 この統合により、LLMは時間と空間の複雑な相互依存性を理解でき、データの不足下でより包括的で正確な予測を容易にする。 提案手法の有効性を検証するため,様々な公開データセットに対して,時空間予測タスクを網羅した広範囲な実験を行った。 その結果、我々の都市gptは、注意深く設計されたアーキテクチャで、常に最先端のベースラインよりも優れています。 これらの結果は、特にラベル付きデータが不足しているゼロショットシナリオにおいて、時空間学習のための大規模言語モデルを構築する可能性を示している。

Spatio-temporal prediction aims to forecast and gain insights into the ever-changing dynamics of urban environments across both time and space. Its purpose is to anticipate future patterns, trends, and events in diverse facets of urban life, including transportation, population movement, and crime rates. Although numerous efforts have been dedicated to developing neural network techniques for accurate predictions on spatio-temporal data, it is important to note that many of these methods heavily depend on having sufficient labeled data to generate precise spatio-temporal representations. Unfortunately, the issue of data scarcity is pervasive in practical urban sensing scenarios. Consequently, it becomes necessary to build a spatio-temporal model with strong generalization capabilities across diverse spatio-temporal learning scenarios. Taking inspiration from the remarkable achievements of large language models (LLMs), our objective is to create a spatio-temporal LLM that can exhibit exceptional generalization capabilities across a wide range of downstream urban tasks. To achieve this objective, we present the UrbanGPT, which seamlessly integrates a spatio-temporal dependency encoder with the instruction-tuning paradigm. This integration enables LLMs to comprehend the complex inter-dependencies across time and space, facilitating more comprehensive and accurate predictions under data scarcity. To validate the effectiveness of our approach, we conduct extensive experiments on various public datasets, covering different spatio-temporal prediction tasks. The results consistently demonstrate that our UrbanGPT, with its carefully designed architecture, consistently outperforms state-of-the-art baselines. These findings highlight the potential of building large language models for spatio-temporal learning, particularly in zero-shot scenarios where labeled data is scarce.
翻訳日:2024-03-11 00:02:03 公開日:2024-02-25
# LoRAが統一フレームワークの下でドロップアウト

LoRA Meets Dropout under a Unified Framework ( http://arxiv.org/abs/2403.00812v1 )

ライセンス: Link先を確認
Sheng Wang, Liheng Chen, Jiyue Jiang, Boyang Xue, Lingpeng Kong, Chuan Wu(参考訳) 注目すべき機能として、多数のNLPアプリケーションにおいて大きな言語モデル(LLM)が必須要素として現れ、パラメータ効率の高い微調整(特にLoRA)がモデルカスタマイズの軽量なアプローチとして人気を集めている。 一方、当初すべてのパラメータが更新された完全な微調整のために設計された様々なドロップアウトメソッドは、過剰なパラメータ冗長性に関連する過剰フィッティングを緩和する。 したがって、LoRAの無視可能なトレーニング可能なパラメータと、ほとんど見過ごされてきた従来のドロップアウト手法の有効性から矛盾が生じる可能性がある。 このギャップを埋めるために、パラメータ効率の高いLoRAも過度に適合していることを最初に確認する。 次に、変圧器固有のドロップアウト法を再検討し、その等価性と数学的および経験的に区別を確立する。 この比較分析に基づいて, 落下位置, 構造パターン, 補償尺度に基づいて, これらの手法をインスタンス化する包括的調査のための統一的な枠組みを提案する。 このフレームワークを通じて、制限されたトレーニング可能なパラメータに関わる場合、それらの新しい好みとパフォーマンスの比較を明らかにする。 このフレームワークは、最も好ましい側面をhiddenkeyと呼ばれる新しいドロップアウトメソッドにアマルガメートすることもできます。 複数のモデルやタスクにまたがるHiddenKeyの顕著な優位性と十分性を検証する実験により,LLMの高性能かつパラメータ効率の高い微調整手法として注目されている。

With the remarkable capabilities, large language models (LLMs) have emerged as essential elements in numerous NLP applications, while parameter-efficient finetuning, especially LoRA, has gained popularity as a lightweight approach for model customization. Meanwhile, various dropout methods, initially designed for full finetuning with all the parameters updated, alleviates overfitting associated with excessive parameter redundancy. Hence, a possible contradiction arises from negligible trainable parameters of LoRA and the effectiveness of previous dropout methods, which has been largely overlooked. To fill this gap, we first confirm that parameter-efficient LoRA is also overfitting-prone. We then revisit transformer-specific dropout methods, and establish their equivalence and distinctions mathematically and empirically. Building upon this comparative analysis, we introduce a unified framework for a comprehensive investigation, which instantiates these methods based on dropping position, structural pattern and compensation measure. Through this framework, we reveal the new preferences and performance comparisons of them when involved with limited trainable parameters. This framework also allows us to amalgamate the most favorable aspects into a novel dropout method named HiddenKey. Extensive experiments verify the remarkable superiority and sufficiency of HiddenKey across multiple models and tasks, which highlights it as the preferred approach for high-performance and parameter-efficient finetuning of LLMs.
翻訳日:2024-03-11 00:01:34 公開日:2024-02-25
# LLMを用いた高精度意思決定における認知バイアス

Cognitive Bias in High-Stakes Decision-Making with LLMs ( http://arxiv.org/abs/2403.00811v1 )

ライセンス: Link先を確認
Jessica Echterhoff, Yao Liu, Abeer Alessa, Julian McAuley, Zexue He(参考訳) 大規模言語モデル(LLM)は、幅広い意思決定タスクをサポートするツールとして大きな可能性を秘めている。 しかしながら、人間の(作成された)データに対するトレーニングを考えると、LLMは保護されたグループに対する社会的バイアスと認知バイアスの両方を継承することができる。 このような人間的な偏見は、LCMの支援によってなされた公平で説明可能な決定を妨げかねない。 このフレームワークは、特に高い意思決定タスクにおいて、LLMにおける認知バイアスを発見し、評価し、緩和する。 心理学と認知科学の先行研究に着想を得て、16,800のプロンプトを含むデータセットを開発し、異なる認知バイアス(例えば、即効性、逐次性、内在性)を評価する。 我々は,LSMを用いた新たな手法を提案する中で,様々なバイアス緩和策を検証した。 我々の分析は、さまざまな商用およびオープンソースモデルにまたがる認知バイアスの存在と効果を包括的に分析する。 偏見の種類ごとに手作業で例を作らなくても、認知バイアスを効果的に軽減できることを実証する。

Large language models (LLMs) offer significant potential as tools to support an expanding range of decision-making tasks. However, given their training on human (created) data, LLMs can inherit both societal biases against protected groups, as well as be subject to cognitive bias. Such human-like bias can impede fair and explainable decisions made with LLM assistance. Our work introduces BiasBuster, a framework designed to uncover, evaluate, and mitigate cognitive bias in LLMs, particularly in high-stakes decision-making tasks. Inspired by prior research in psychology and cognitive sciences, we develop a dataset containing 16,800 prompts to evaluate different cognitive biases (e.g., prompt-induced, sequential, inherent). We test various bias mitigation strategies, amidst proposing a novel method using LLMs to debias their own prompts. Our analysis provides a comprehensive picture on the presence and effects of cognitive bias across different commercial and open-source models. We demonstrate that our self-help debiasing effectively mitigate cognitive bias without having to manually craft examples for each bias type.
翻訳日:2024-03-11 00:01:11 公開日:2024-02-25
# 大規模言語モデルを用いたブートストラップ認知エージェント

Bootstrapping Cognitive Agents with a Large Language Model ( http://arxiv.org/abs/2403.00810v1 )

ライセンス: Link先を確認
Feiyu Zhu, Reid Simmons(参考訳) 大きな言語モデルは世界の騒々しい一般的な知識を含んでいるが、訓練や微調整は難しい。 一方、認知アーキテクチャは優れた解釈性を持ち、更新は柔軟ですが、インスタンス化には多くの手動作業が必要です。 この研究では、認知モデルと大きな言語モデルで符号化されたノイズの多い知識をブートストラップで組み合わせます。 キッチンタスクを行う具体化エージェントを通じて,提案するフレームワークが,大規模言語モデルに基づくエージェントよりも優れた効率をもたらすことを示す。 我々の実験は、大規模言語モデルは認知アーキテクチャの優れた情報源であり、認知アーキテクチャは、大規模言語モデルの知識を特定のドメインに検証し更新することができることを示している。

Large language models contain noisy general knowledge of the world, yet are hard to train or fine-tune. On the other hand cognitive architectures have excellent interpretability and are flexible to update but require a lot of manual work to instantiate. In this work, we combine the best of both worlds: bootstrapping a cognitive-based model with the noisy knowledge encoded in large language models. Through an embodied agent doing kitchen tasks, we show that our proposed framework yields better efficiency compared to an agent based entirely on large language models. Our experiments indicate that large language models are a good source of information for cognitive architectures, and the cognitive architecture in turn can verify and update the knowledge of large language models to a specific domain.
翻訳日:2024-03-11 00:00:53 公開日:2024-02-25
# 強化学習ジャズ即興:音楽がゲーム理論に合致する時

Reinforcement Learning Jazz Improvisation: When Music Meets Game Theory ( http://arxiv.org/abs/2403.03224v1 )

ライセンス: Link先を確認
Vedant Tapiavala, Joshua Piesner, Sourjyamoy Barman, Feng Fu(参考訳) 音楽のライブ演奏は常に魅力的であり、ミュージシャン同士のダイナミックさと観客との交流によって即興性が予測できない。 ジャズ即興は理論的な観点からさらなる調査を行う上で特に注目すべき例である。 本稿では,ジャズ即興のための数学ゲーム理論モデルを紹介し,音楽理論と即興方法論を研究するための枠組みを提供する。 強化学習を主とする計算モデルを用いて多種多様な確率的即興戦略と対の即興性能を探索する。 最も効果的な戦略ペアは、与えられた和音の音符に限られる強化学習戦略(Chord-Following Reinforcement Learning)によって、最新の支払い(Stepwise Change)に反応する戦略であることがわかった。 逆に、パートナーの最後の音符に反応し、それと調和しようとする戦略(ハーモニー予測)は、最も低い制御不能な報酬と最も高い標準偏差を生じさせ、パートナープレーヤーに対する即時反応に基づく音符の選択は一貫性のない結果をもたらす可能性があることを示している。 平均すると、コード追従強化学習戦略は平均給与が最も高いが、調和予測は最低である。 私たちの研究は、ai(artificial intelligence)モデルを使用してオーディオクリップからデータを抽出し、音楽報酬システムを洗練し、既存のジャズソロで機械学習(ml)モデルをトレーニングし、ゲーム内の戦略をさらに洗練することを含む、ジャズ以外の有望なアプリケーションの基礎を築いている。

Live performances of music are always charming, with the unpredictability of improvisation due to the dynamic between musicians and interactions with the audience. Jazz improvisation is a particularly noteworthy example for further investigation from a theoretical perspective. Here, we introduce a novel mathematical game theory model for jazz improvisation, providing a framework for studying music theory and improvisational methodologies. We use computational modeling, mainly reinforcement learning, to explore diverse stochastic improvisational strategies and their paired performance on improvisation. We find that the most effective strategy pair is a strategy that reacts to the most recent payoff (Stepwise Changes) with a reinforcement learning strategy limited to notes in the given chord (Chord-Following Reinforcement Learning). Conversely, a strategy that reacts to the partner's last note and attempts to harmonize with it (Harmony Prediction) strategy pair yields the lowest non-control payoff and highest standard deviation, indicating that picking notes based on immediate reactions to the partner player can yield inconsistent outcomes. On average, the Chord-Following Reinforcement Learning strategy demonstrates the highest mean payoff, while Harmony Prediction exhibits the lowest. Our work lays the foundation for promising applications beyond jazz: including the use of artificial intelligence (AI) models to extract data from audio clips to refine musical reward systems, and training machine learning (ML) models on existing jazz solos to further refine strategies within the game.
翻訳日:2024-03-10 23:52:37 公開日:2024-02-25
# RAM-EHR:Retrieval Augmentationは、電子健康記録に臨床予測を伴う

RAM-EHR: Retrieval Augmentation Meets Clinical Predictions on Electronic Health Records ( http://arxiv.org/abs/2403.00815v1 )

ライセンス: Link先を確認
Ran Xu, Wenqi Shi, Yue Yu, Yuchen Zhuang, Bowen Jin, May D. Wang, Joyce C. Ho, Carl Yang(参考訳) 本稿では,Electronic Health Records(EHRs)における臨床予測を改善するために,検索AugMentationパイプラインであるRAM-EHRを提案する。 RAM-EHRはまず複数の知識ソースを収集し、それらをテキスト形式に変換し、密度の高い検索を用いて医療概念に関する情報を取得する。 この戦略は概念の複雑な名前に関連する困難に対処する。 RAM-EHRは、患者の訪問や要約された知識から補完的な情報を取得するために、一貫性の規則化とともに訓練されたローカルEHR予測モデルを増強する。 2つのEHRデータセットの実験は、RAM-EHRが従来の知識強化ベースライン(AUROCでは3.4%、AUPRでは7.2%)よりも有効であることを示し、臨床予測タスクにおいてRAM-EHRから要約された知識の有効性を強調した。 コードは \url{https://github.com/ritaranx/RAM-EHR} で公開される。

We present RAM-EHR, a Retrieval AugMentation pipeline to improve clinical predictions on Electronic Health Records (EHRs). RAM-EHR first collects multiple knowledge sources, converts them into text format, and uses dense retrieval to obtain information related to medical concepts. This strategy addresses the difficulties associated with complex names for the concepts. RAM-EHR then augments the local EHR predictive model co-trained with consistency regularization to capture complementary information from patient visits and summarized knowledge. Experiments on two EHR datasets show the efficacy of RAM-EHR over previous knowledge-enhanced baselines (3.4% gain in AUROC and 7.2% gain in AUPR), emphasizing the effectiveness of the summarized knowledge from RAM-EHR for clinical prediction tasks. The code will be published at \url{https://github.com/ritaranx/RAM-EHR}.
翻訳日:2024-03-10 23:47:51 公開日:2024-02-25
# EncodingNet: 効率的なニューラルネットワーク高速化のための新しいエンコーディングベースMAC設計

EncodingNet: A Novel Encoding-based MAC Design for Efficient Neural Network Acceleration ( http://arxiv.org/abs/2402.18595v1 )

ライセンス: Link先を確認
Bo Liu, Grace Li Zhang, Xunzhao Yin, Ulf Schlichtmann, Bing Li(参考訳) ディープニューラルネットワーク(DNN)は、画像分類や自然言語処理など、多くの分野で大きなブレークスルーを遂げている。 しかし、DNNの実行はハードウェア上で大量の乗算累積演算(MAC)を実行する必要があるため、大量の電力消費が発生する。 そこで本研究では,符号化に基づく新しいディジタルMAC設計を提案する。 この新しい設計では、乗算器は単純な論理ゲートで置き換えられ、結果をワイドビット表現に投影する。 これらのビットは個々の位置重みを持ち、特定のニューラルネットワークのためにトレーニングして推論精度を高めることができる。 新しい乗算器の出力はビット重み付け蓄積によって加算され、蓄積結果は、一様または一様量子化でニューラルネットワークを加速する既存のコンピューティングプラットフォームと互換性がある。 乗算関数は単純な論理射影に置き換えられるため、回路の臨界経路はより短くなる。 これに対応して、MACアレイのパイプライニング段数を削減でき、面積が大幅に小さくなり、電力効率も向上する。 提案した設計はResNet18-Cifar10、ResNet20-Cifar100、ResNet50-ImageNetによって合成および検証されている。 実験の結果、回路面積を最大79.63%削減し、実行中のdnnの消費電力を最大70.18%削減できることが確認されたが、ニューラルネットワークの精度は依然として良好である。

Deep neural networks (DNNs) have achieved great breakthroughs in many fields such as image classification and natural language processing. However, the execution of DNNs needs to conduct massive numbers of multiply-accumulate (MAC) operations on hardware and thus incurs a large power consumption. To address this challenge, we propose a novel digital MAC design based on encoding. In this new design, the multipliers are replaced by simple logic gates to project the results onto a wide bit representation. These bits carry individual position weights, which can be trained for specific neural networks to enhance inference accuracy. The outputs of the new multipliers are added by bit-wise weighted accumulation and the accumulation results are compatible with existing computing platforms accelerating neural networks with either uniform or non-uniform quantization. Since the multiplication function is replaced by simple logic projection, the critical paths in the resulting circuits become much shorter. Correspondingly, pipelining stages in the MAC array can be reduced, leading to a significantly smaller area as well as a better power efficiency. The proposed design has been synthesized and verified by ResNet18-Cifar10, ResNet20-Cifar100 and ResNet50-ImageNet. The experimental results confirmed the reduction of circuit area by up to 79.63% and the reduction of power consumption of executing DNNs by up to 70.18%, while the accuracy of the neural networks can still be well maintained.
翻訳日:2024-03-01 17:11:55 公開日:2024-02-25
# AIのための持続可能なスーパーコンピュータ:HPCスケールでのGPUパワーキャッピング

Sustainable Supercomputing for AI: GPU Power Capping at HPC Scale ( http://arxiv.org/abs/2402.18593v1 )

ライセンス: Link先を確認
Dan Zhao, Siddharth Samsi, Joseph McDonald, Baolin Li, David Bestor, Michael Jones, Devesh Tiwari, Vijay Gadepally(参考訳) aiの研究開発と展開が進むにつれ、その進歩を支援し維持するための計算負荷も必然的に増加する。 NLP、コンピュータビジョンなどの最先端モデルを訓練または微調整するために、ある種のAIハードウェアアクセラレーションは事実上必須である。 最近の大規模言語モデルは、トレーニングとデプロイにかなりのリソースを必要としており、その結果、かなりのエネルギー使用量、二酸化炭素排出量、GPUやその他のハードウェアアクセラレーターに対する膨大な需要が生じる。 しかし、この急上昇はhpc/データセンターレベルでのエネルギー持続可能性に大きな影響を与える。 本稿では,研究スーパーコンピュータセンターのGPU温度とパワードローに及ぼすパワーキャッピングGPUの集合効果について検討する。 適切な電力キャッピング量では、温度と消費電力の両方が大幅に減少し、消費電力が減少し、ジョブパフォーマンスに最小限の影響を伴ってハードウェア寿命が向上する可能性がある。 例えば、ユーザーがgpuのパワーキャップからジョブパフォーマンスが低下していることに気付くと、彼らは追加のgpuジョブに補償を要求したり、エネルギー節約を否定したり、エネルギー消費を悪化させたりする。 我々の知る限り、私たちの研究は、スーパーコンピュータスケールでのGPUパワーキャッピングの効果を、初めて実施し、より詳細に分析したものです。 私たちは、HPC/データセンターが、より持続可能なAIのために電力を消費するAIハードウェアアクセラレーターの影響をさらに探求し、評価し、伝達することを期待しています。

As research and deployment of AI grows, the computational burden to support and sustain its progress inevitably does too. To train or fine-tune state-of-the-art models in NLP, computer vision, etc., some form of AI hardware acceleration is virtually a requirement. Recent large language models require considerable resources to train and deploy, resulting in significant energy usage, potential carbon emissions, and massive demand for GPUs and other hardware accelerators. However, this surge carries large implications for energy sustainability at the HPC/datacenter level. In this paper, we study the aggregate effect of power-capping GPUs on GPU temperature and power draw at a research supercomputing center. With the right amount of power-capping, we show significant decreases in both temperature and power draw, reducing power consumption and potentially improving hardware life-span with minimal impact on job performance. While power-capping reduces power draw by design, the aggregate system-wide effect on overall energy consumption is less clear; for instance, if users notice job performance degradation from GPU power-caps, they may request additional GPU-jobs to compensate, negating any energy savings or even worsening energy consumption. To our knowledge, our work is the first to conduct and make available a detailed analysis of the effects of GPU power-capping at the supercomputing scale. We hope our work will inspire HPCs/datacenters to further explore, evaluate, and communicate the impact of power-capping AI hardware accelerators for more sustainable AI.
翻訳日:2024-03-01 17:11:32 公開日:2024-02-25
# drattack:迅速な分解と再構築で強力なllmジェイルブレイクが可能に

DrAttack: Prompt Decomposition and Reconstruction Makes Powerful LLM Jailbreakers ( http://arxiv.org/abs/2402.16914v1 )

ライセンス: Link先を確認
Xirui Li, Ruochen Wang, Minhao Cheng, Tianyi Zhou, Cho-Jui Hsieh(参考訳) 大規模言語モデル(llms)の安全性アライメントは、手動および自動ジェイルブレイク攻撃の両方に脆弱であり、反対に有害なコンテンツを出力するためにllmをトリガーする。 しかし、有害なプロンプト全体をネストする現在のLLMのジェイルブレイク方法は、悪意のある意図を隠蔽するには有効ではなく、適切に整列されたLLMによって容易に識別され、拒否される。 本稿では,悪意のあるプロンプトを分離したサブプロンプトに分解することで,その下位にある悪意の意図を,断片化された,検出不能な形式で表現することにより,効果的に隠蔽できることを示す。 我々はjailbreak \textbf{Attack} (DrAttack) のための自動プロンプト \textbf{D}ecomposition と \textbf{R}econstruction フレームワークを導入する。 drattackには3つの重要なコンポーネントがある。 (a)原プロンプトのサブプロンプトへの'デコンポジション' b) 意味的に類似しているが無害な再組み立てデモによる文脈内学習によるこれらのサブプロンプトの「再構成」 c) llmをジェイルブレイクしながら、元の意図を維持するサブプロンプトのシノニムを見つけることを目的としたサブプロンプトの ‘synonym search' 。 複数のオープンソースおよびクローズドソース LLM にまたがる広範な実証研究により、Drattack はクエリ数が大幅に減少し、以前の SOTA プロンプトのみの攻撃者よりもかなりの成功率を得ることを示した。 特に GPT-4 での成功率は 78.0 % で、前作よりわずか15クエリで33.1 % 上回った。

The safety alignment of Large Language Models (LLMs) is vulnerable to both manual and automated jailbreak attacks, which adversarially trigger LLMs to output harmful content. However, current methods for jailbreaking LLMs, which nest entire harmful prompts, are not effective at concealing malicious intent and can be easily identified and rejected by well-aligned LLMs. This paper discovers that decomposing a malicious prompt into separated sub-prompts can effectively obscure its underlying malicious intent by presenting it in a fragmented, less detectable form, thereby addressing these limitations. We introduce an automatic prompt \textbf{D}ecomposition and \textbf{R}econstruction framework for jailbreak \textbf{Attack} (DrAttack). DrAttack includes three key components: (a) `Decomposition' of the original prompt into sub-prompts, (b) `Reconstruction' of these sub-prompts implicitly by in-context learning with semantically similar but harmless reassembling demo, and (c) a `Synonym Search' of sub-prompts, aiming to find sub-prompts' synonyms that maintain the original intent while jailbreaking LLMs. An extensive empirical study across multiple open-source and closed-source LLMs demonstrates that, with a significantly reduced number of queries, DrAttack obtains a substantial gain of success rate over prior SOTA prompt-only attackers. Notably, the success rate of 78.0\% on GPT-4 with merely 15 queries surpassed previous art by 33.1\%.
翻訳日:2024-02-28 19:13:50 公開日:2024-02-25
# PDETime:偏微分方程式の観点からの長期多変量時系列予測の再考

PDETime: Rethinking Long-Term Multivariate Time Series Forecasting from the perspective of partial differential equations ( http://arxiv.org/abs/2402.16913v1 )

ライセンス: Link先を確認
Shiyi Qi, Zenglin Xu, Yiduo Li, Liangjian Wen, Qingsong Wen, Qifan Wang, Yuan Qi(参考訳) 近年のディープラーニングの進歩により、長期多変量時系列予測(LMTF)の様々なモデルが開発され、その多くが有望な結果を示している。 一般に、将来のシリーズを予測するために過去の観測に依存する歴史的価値に基づくモデルに焦点を当てている。 特に、時系列に基づく連続力学のより微妙な理解を提供する、時間インデックスベースのモデルで新しい傾向が現れた。 空間領域や時間領域に関する情報を集約するこれらの2種類のモデルとは異なり、この論文では、多変量時系列は連続力学系から定期的にサンプリングされる時空間データであり、空間領域を固定した偏微分方程式(PDE)で表すことができる。 この観点で構築したPDETimeは、エンコーディング・インテグレーション・デコード操作に従って、Neural PDEソルバの原理にインスパイアされた新しいLMTFモデルである。 7つの異なる実世界のLMTFデータセットにわたる広範な実験により、PDETimeはデータ固有の時空間の性質に効果的に適応するだけでなく、新しいベンチマークも設定し、最先端の結果を得ることができた。

Recent advancements in deep learning have led to the development of various models for long-term multivariate time-series forecasting (LMTF), many of which have shown promising results. Generally, the focus has been on historical-value-based models, which rely on past observations to predict future series. Notably, a new trend has emerged with time-index-based models, offering a more nuanced understanding of the continuous dynamics underlying time series. Unlike these two types of models that aggregate the information of spatial domains or temporal domains, in this paper, we consider multivariate time series as spatiotemporal data regularly sampled from a continuous dynamical system, which can be represented by partial differential equations (PDEs), with the spatial domain being fixed. Building on this perspective, we present PDETime, a novel LMTF model inspired by the principles of Neural PDE solvers, following the encoding-integration-decoding operations. Our extensive experimentation across seven diverse real-world LMTF datasets reveals that PDETime not only adapts effectively to the intrinsic spatiotemporal nature of the data but also sets new benchmarks, achieving state-of-the-art results
翻訳日:2024-02-28 19:13:21 公開日:2024-02-25
# エンタープライズネットワーク侵入検知のための逆ロバスト性ベンチマーク

An Adversarial Robustness Benchmark for Enterprise Network Intrusion Detection ( http://arxiv.org/abs/2402.16912v1 )

ライセンス: Link先を確認
Jo\~ao Vitorino, Miguel Silva, Eva Maia, Isabel Pra\c{c}a(参考訳) サイバー攻撃が高度化するにつれて、機械学習(ML)モデルの堅牢性の向上は、あらゆる規模の企業にとって最優先事項である。 エンタープライズコンピュータネットワークにおける様々なMLモデルのサイバー攻撃検出の堅牢性を確実に比較するためには、それらを標準化された条件で評価する必要がある。 本研究は,複数の決定木アンサンブルを標準データセットから生成した制約付き逆数例を用いて,方法論的逆数ロバスト性ベンチマークを提案する。 RF, XGB, LGBM, EBMモデルの頑健性は, 従来のCICIDS2017データセット, NewCICIDSと命名された修正版, より最近のネットワークトラフィックを含むHIKARIデータセットで評価された。 NewCICIDSは、特にXGBとEBMの性能向上に繋がったが、RFとLGBMはHIKARIのサイバー攻撃に対してより堅牢ではなかった。 全体として、敵対的なサイバー攻撃例へのモデルの堅牢性は、通常のトラフィックの影響を受けることなく改善され、誤ったアラームをコスト的に増加させることなく、疑わしい行動の信頼できる検出を可能にした。

As cyber-attacks become more sophisticated, improving the robustness of Machine Learning (ML) models must be a priority for enterprises of all sizes. To reliably compare the robustness of different ML models for cyber-attack detection in enterprise computer networks, they must be evaluated in standardized conditions. This work presents a methodical adversarial robustness benchmark of multiple decision tree ensembles with constrained adversarial examples generated from standard datasets. The robustness of regularly and adversarially trained RF, XGB, LGBM, and EBM models was evaluated on the original CICIDS2017 dataset, a corrected version of it designated as NewCICIDS, and the HIKARI dataset, which contains more recent network traffic. NewCICIDS led to models with a better performance, especially XGB and EBM, but RF and LGBM were less robust against the more recent cyber-attacks of HIKARI. Overall, the robustness of the models to adversarial cyber-attack examples was improved without their generalization to regular traffic being affected, enabling a reliable detection of suspicious activity without costly increases of false alarms.
翻訳日:2024-02-28 19:12:58 公開日:2024-02-25
# 後方ファインチューンによる信頼できる個人化ベイズ連邦学習

Trustworthy Personalized Bayesian Federated Learning via Posterior Fine-Tune ( http://arxiv.org/abs/2402.16911v1 )

ライセンス: Link先を確認
Mengen Luo, Chi Xu, Ercan Engin Kuruoglu(参考訳) データの不均一性と低出力解釈可能性による性能劣化は、実践的応用においてフェデレート学習が直面する最も重要な課題である。 パーソナライズされた連合学習は、従来のアプローチとは異なっている。単一のモデルをトレーニングすることではなく、各クライアントにユニークなパーソナライズされたモデルを提供するのだ。 しかしながら、従来の研究は、ニューラルネットワークのパラメータや堅牢性や解釈性の欠如の観点からのパーソナライズにのみ焦点を当てていた。 本研究では,不確かさを定量化するアルゴリズムの能力を高めるベイズ手法を取り入れた,パーソナライズされた連合学習のための新しい枠組みを確立する。 さらに,パラメータの後方からパーソナライズを行うために正規化フローを導入し,ベイズ型ニューラルネットワークのアウト・オブ・ディストリビューション(ood)検出における正規化フローの影響を理論的に解析する。 最後に, 不均質なデータセットに対するアプローチを評価し, 実験結果から, 新しいアルゴリズムは精度を向上させるだけでなく, ベイズ手法の信頼性の高い出力により, ood検出のベースラインを大きく上回ることを示した。

Performance degradation owing to data heterogeneity and low output interpretability are the most significant challenges faced by federated learning in practical applications. Personalized federated learning diverges from traditional approaches, as it no longer seeks to train a single model, but instead tailors a unique personalized model for each client. However, previous work focused only on personalization from the perspective of neural network parameters and lack of robustness and interpretability. In this work, we establish a novel framework for personalized federated learning, incorporating Bayesian methodology which enhances the algorithm's ability to quantify uncertainty. Furthermore, we introduce normalizing flow to achieve personalization from the parameter posterior perspective and theoretically analyze the impact of normalizing flow on out-of-distribution (OOD) detection for Bayesian neural networks. Finally, we evaluated our approach on heterogeneous datasets, and the experimental results indicate that the new algorithm not only improves accuracy but also outperforms the baseline significantly in OOD detection due to the reliable output of the Bayesian approach.
翻訳日:2024-02-28 19:12:39 公開日:2024-02-25
# nesyは健在だ - コードコメントデータの生成と分類を改善するためのllm駆動のシンボリックアプローチ

NeSy is alive and well: A LLM-driven symbolic approach for better code comment data generation and classification ( http://arxiv.org/abs/2402.16910v1 )

ライセンス: Link先を確認
Hanna Abi Akl(参考訳) 我々は,C言語におけるコードコメント分類のための合成データを生成するために,記号ベース学習技術と大言語モデル(LLM)エージェントを組み合わせたニューラルシンボリック(NeSy)ワークフローを提案する。 また、このワークフローを用いて制御された合成データを生成することにより、LLM生成の顕著な弱点が修正され、コードコメント分類タスクにおける古典的な機械学習モデルの性能が向上することを示す。 我々の最良のモデルであるニューラルネットワークは、データ拡張後の1.033%の増加でマクロF1スコアが91.412%に達する。

We present a neuro-symbolic (NeSy) workflow combining a symbolic-based learning technique with a large language model (LLM) agent to generate synthetic data for code comment classification in the C programming language. We also show how generating controlled synthetic data using this workflow fixes some of the notable weaknesses of LLM-based generation and increases the performance of classical machine learning models on the code comment classification task. Our best model, a Neural Network, achieves a Macro-F1 score of 91.412% with an increase of 1.033% after data augmentation.
翻訳日:2024-02-28 19:12:19 公開日:2024-02-25
# 育児期における身体活動が生活の質に及ぼす影響:因果MLアプローチ

Impact of Physical Activity on Quality of Life During Pregnancy: A Causal ML Approach ( http://arxiv.org/abs/2402.16909v1 )

ライセンス: Link先を確認
Kianoosh Kazemi, Iina Ryht\"a, Iman Azimi, Hannakaisa Niela-Vilen, Anna Axelin, Amir M. Rahmani, Pasi Liljeberg(参考訳) QoL(Quality of Life、QoL)とは、個人の幸福を総合的に測定し、心理的・社会的側面を取り入れた概念である。 妊娠中の女性、特に肥満とストレスを持つ女性は、しばしばQoLの低下を経験する。 身体活動(PA)はQoLを増強する可能性を示している。 しかし、太りすぎで肥満の妊婦は、paの推奨レベルをほとんど満たさない。 妊娠中のPAとQoLの関係を相関に基づくアプローチを用いて検討した。 これらの手法は、因果関係よりも変数間の急激な相関を発見することを目的としている。 さらに、既存の手法は主に身体活動パラメータに依存しており、母性(医療)履歴や文脈データなどの異なる要因の使用を無視し、偏りのある見積もりをもたらす。 さらに、これらの推定は、仲介者やそれらに影響を与える可能性のある反事実的シナリオに対する理解を欠いている。 本稿では,妊娠および産後における身体活性(治療変数)とqol(アウトカム)の因果関係について検討する。 因果効果を推定するために,因果発見と因果推論を統合した因果学習手法を開発した。 調査データは、肥満妊婦と肥満妊婦を対象にした長期にわたるウェアラブルベースの健康モニタリング研究から得られた。 機械学習(meta-learner)推定技術は因果効果を推定するために用いられる。 以上の結果から,妊娠および産後において適切な身体活動を行うと,身体健康領域および心理的領域の平均値が7.3および3.4のqolが改善することが示された。 最終ステップでは,評価の検証に4つの反論分析手法を適用した。

The concept of Quality of Life (QoL) refers to a holistic measurement of an individual's well-being, incorporating psychological and social aspects. Pregnant women, especially those with obesity and stress, often experience lower QoL. Physical activity (PA) has shown the potential to enhance the QoL. However, pregnant women who are overweight and obese rarely meet the recommended level of PA. Studies have investigated the relationship between PA and QoL during pregnancy using correlation-based approaches. These methods aim to discover spurious correlations between variables rather than causal relationships. Besides, the existing methods mainly rely on physical activity parameters and neglect the use of different factors such as maternal (medical) history and context data, leading to biased estimates. Furthermore, the estimations lack an understanding of mediators and counterfactual scenarios that might affect them. In this paper, we investigate the causal relationship between being physically active (treatment variable) and the QoL (outcome) during pregnancy and postpartum. To estimate the causal effect, we develop a Causal Machine Learning method, integrating causal discovery and causal inference components. The data for our investigation is derived from a long-term wearable-based health monitoring study focusing on overweight and obese pregnant women. The machine learning (meta-learner) estimation technique is used to estimate the causal effect. Our result shows that performing adequate physical activity during pregnancy and postpartum improves the QoL by units of 7.3 and 3.4 on average in physical health and psychological domains, respectively. In the final step, four refutation analysis techniques are employed to validate our estimation.
翻訳日:2024-02-28 19:12:08 公開日:2024-02-25
# memristor対応確率論理を用いた局所確率計算

Local stochastic computing using memristor-enabled stochastic logics ( http://arxiv.org/abs/2402.16908v1 )

ライセンス: Link先を確認
Lekai Song, Pengyu Liu, Jingfang Pei, Yang Liu, Songwei Liu, Shengbo Wang, Leonard W. T. Ng, Tawfique Hasan, Kong-Pang Pun, Shuo Gao, Guohua Hu(参考訳) 確率コンピューティングは、様々な分野、特に機械学習における不確実性やノイズによる問題に対処する確率論的アプローチを提供する。 しかし、確率計算の実現は、信頼性のある確率論理の開発の限界に直面している。 本稿では,メムリスタを用いた確率論理の開発について述べる。 具体的には、メムリスタを論理回路に統合して確率論理を設計し、メムリスタスイッチングの固有の確率性を利用して確率数符号化と処理を適切に制御された確率と相関で実現する。 確率論理の実用的な応用として,エッジ検出のためのコンパクトな確率ロバーツクロス作用素を設計する。 顕著なことに、オペレータは50%のノイズの存在下でも例外的な輪郭とテクスチャ抽出を示し、確率的性質とコンパクトな設計を所有することで、従来のバイナリコンピューティングで必要とされる計算コストを95%削減することができる。 この結果は、自動運転車、仮想現実、医療診断、産業自動化などにおける機械学習の課題に対する、軽量なローカルソリューションとしての、確率コンピューティングアプローチの大きな可能性を強調している。

Stochastic computing offers a probabilistic approach to address challenges posed by problems with uncertainty and noise in various fields, particularly machine learning. The realization of stochastic computing, however, faces the limitation of developing reliable stochastic logics. Here, we present stochastic logics development using memristors. Specifically, we integrate memristors into logic circuits to design the stochastic logics, wherein the inherent stochasticity in memristor switching is harnessed to enable stochastic number encoding and processing with well-regulated probabilities and correlations. As a practical application of the stochastic logics, we design a compact stochastic Roberts cross operator for edge detection. Remarkably, the operator demonstrates exceptional contour and texture extractions, even in the presence of 50% noise, and owning to the probabilistic nature and compact design, the operator can consume 95% less computational costs required by conventional binary computing. The results underscore the great potential of our stochastic computing approach as a lightweight local solution to machine learning challenges in autonomous driving, virtual reality, medical diagnosis, industrial automation, and beyond.
翻訳日:2024-02-28 19:11:44 公開日:2024-02-25
# 画像修復のための拡散後近位サンプリング

Diffusion Posterior Proximal Sampling for Image Restoration ( http://arxiv.org/abs/2402.16907v1 )

ライセンス: Link先を確認
Hongjie Wu, Linchao He, Mingqin Zhang, Dongdong Chen, Kunming Luo, Mengting Luo, Ji-Zhe Zhou, Hu Chen, Jiancheng Lv(参考訳) 拡散モデルは高品質な試料の生成に顕著な効果を示した。 既存の拡散に基づく画像復元アルゴリズムは、事前訓練された拡散モデルを利用してデータ事前を利用するが、それでも無条件生成パラダイムから継承された要素を保存している。 これらの戦略は純白色雑音による雑音発生プロセスを開始し、各生成段階にランダムノイズを取り入れ、過度に滑らかな結果をもたらす。 本稿では拡散に基づく画像復元のための洗練されたパラダイムを提案する。 具体的には,各生成段階における測定値に整合したサンプルを選択し,サンプリング選択を出力安定性と拡張の道として活用する。 さらに, 初期化と測定信号を組み合わせることで復元プロセスを開始し, 生成プロセスの整合性を向上する補足情報を提供する。 画像復元作業における提案手法の有効性を検証し,実験結果と分析を行った。

Diffusion models have demonstrated remarkable efficacy in generating high-quality samples. Existing diffusion-based image restoration algorithms exploit pre-trained diffusion models to leverage data priors, yet they still preserve elements inherited from the unconditional generation paradigm. These strategies initiate the denoising process with pure white noise and incorporate random noise at each generative step, leading to over-smoothed results. In this paper, we introduce a refined paradigm for diffusion-based image restoration. Specifically, we opt for a sample consistent with the measurement identity at each generative step, exploiting the sampling selection as an avenue for output stability and enhancement. Besides, we start the restoration process with an initialization combined with the measurement signal, providing supplementary information to better align the generative process. Extensive experimental results and analyses validate the effectiveness of our proposed approach across diverse image restoration tasks.
翻訳日:2024-02-28 19:11:26 公開日:2024-02-25
# LDB: 実行時実行のステップバイステップ検証による大規模言語モデルデバッガ

LDB: A Large Language Model Debugger via Verifying Runtime Execution Step-by-step ( http://arxiv.org/abs/2402.16906v1 )

ライセンス: Link先を確認
Li Zhong, Zilong Wang, Jingbo Shang(参考訳) 大規模言語モデル(LLM)はコード生成の大きな進歩を導いている。 ワンパスコード生成以外にも、近年の作業では、ユニットテストとプログラム検証器をLCMに統合して、生成されたプログラムを反復的に洗練している。 しかし、これらの研究は生成されたプログラムを識別不可能な実体とみなし、特に複雑な論理フローやデータ操作を含む場合、プログラムのデバッグにおいてLLMでは不足している。 対照的に、ヒューマン開発者がプログラムをデバッグする場合、通常はブレークポイントを設定し、実行時情報を選択的に検査する。 実行フローと中間変数はデバッグプロセスにおいて重要な役割を果たすが、コード生成に関する既存の文献では使われていない。 本研究では,Large Language Model Debugger (LDB)を紹介し,LLMが実行時情報を用いて生成されたプログラムを洗練できる新しいデバッグフレームワークを提案する。 具体的には、LDBはプログラムを基本ブロックに分割し、実行中の各ブロックの後に中間変数の値を追跡する。 これにより、LCMは実行フロー全体においてより単純なコードユニットに集中でき、ブロックによってタスク記述ブロックに対する正当性を検証でき、潜在的なエラーを効率的に特定できる。 実験によると、LDBはHumanEval、MBPP、TransCoderベンチマークで最大9.8%のベースライン性能を継続的に向上し、様々なLLM選択のためのコードデバッグにおける新しい最先端のパフォーマンスをアーカイブしている。

Large language models (LLMs) are leading significant progress in code generation. Beyond one-pass code generation, recent works further integrate unit tests and program verifiers into LLMs to iteratively refine the generated programs. However, these works consider the generated programs as an indivisible entity, which falls short for LLMs in debugging the programs, especially when the programs contain complex logic flows and data operations. In contrast, when human developers debug programs, they typically set breakpoints and selectively examine runtime execution information. The execution flow and the intermediate variables play a crucial role in the debugging process, yet they are underutilized in the existing literature on code generation. In this study, we introduce Large Language Model Debugger (LDB), a novel debugging framework that enables LLMs to refine their generated programs with the runtime execution information. Specifically, LDB segments the programs into basic blocks and tracks the values of intermediate variables after each block throughout the runtime execution. This allows LLMs to concentrate on simpler code units within the overall execution flow, verify their correctness against the task description block by block, and efficiently pinpoint any potential errors. Experiments demonstrate that LDB consistently enhances the baseline performance by up to 9.8% across the HumanEval, MBPP, and TransCoder benchmarks, archiving new state-of-the-art performance in code debugging for various LLM selections.
翻訳日:2024-02-28 19:11:13 公開日:2024-02-25
# ルーティング以上のもの:gpsと経路モデリングによる軌道表現学習の洗練

More Than Routing: Joint GPS and Route Modeling for Refine Trajectory Representation Learning ( http://arxiv.org/abs/2402.16915v1 )

ライセンス: Link先を確認
Zhipeng Ma, Zheyan Tu, Xinhai Chen, Yan Zhang, Deguo Xia, Guyue Zhou, Yilun Chen, Yu Zheng, Jiangtao Gong(参考訳) 軌道表現学習は様々な下流タスクを支援する上で重要な役割を果たしている。 GPSトラジェクトリのノイズをフィルタリングする従来の手法は、トラジェクトリを単純化するために使われるルーティングベースの手法に焦点を当てる傾向にある。 しかし、このアプローチはgpsデータに含まれる動きの詳細を無視し、軌道表現学習の表現能力を制限する。 このギャップを埋めるために,JGRMという自己教師型技術に基づく共同GPSとルートモデリングを用いた表現学習フレームワークを提案する。 我々は,GPSの軌跡と経路を単一運動観測の2つのモードとみなし,モーダル間情報通信を通じて情報を融合する。 具体的には、2つのエンコーダを開発し、それぞれルートとGPSの軌跡を表現できるように調整する。 2つのモードからの表現は、モーダル間情報相互作用のための共有変換器に入力される。 最終的に、モデルをトレーニングするための3つの自己教師型タスクを設計する。 本研究では,提案手法の有効性を2つの実データで検証する。 実験の結果,JGRMは道路セグメント表現と軌道表現の両方において既存手法よりも優れていた。 ソースコードはAnonymous Githubで入手可能です。

Trajectory representation learning plays a pivotal role in supporting various downstream tasks. Traditional methods in order to filter the noise in GPS trajectories tend to focus on routing-based methods used to simplify the trajectories. However, this approach ignores the motion details contained in the GPS data, limiting the representation capability of trajectory representation learning. To fill this gap, we propose a novel representation learning framework that Joint GPS and Route Modelling based on self-supervised technology, namely JGRM. We consider GPS trajectory and route as the two modes of a single movement observation and fuse information through inter-modal information interaction. Specifically, we develop two encoders, each tailored to capture representations of route and GPS trajectories respectively. The representations from the two modalities are fed into a shared transformer for inter-modal information interaction. Eventually, we design three self-supervised tasks to train the model. We validate the effectiveness of the proposed method on two real datasets based on extensive experiments. The experimental results demonstrate that JGRM outperforms existing methods in both road segment representation and trajectory representation tasks. Our source code is available at Anonymous Github.
翻訳日:2024-02-28 19:00:25 公開日:2024-02-25
# 画像ゴールナビゲーションのためのインスタンス対応探索-検証-探索

Instance-aware Exploration-Verification-Exploitation for Instance ImageGoal Navigation ( http://arxiv.org/abs/2402.17587v1 )

ライセンス: Link先を確認
Xiaohan Lei, Min Wang, Wengang Zhou, Li Li, Houqiang Li(参考訳) 新たに具体化されたビジョンタスクとして、インスタンスイメージゴーアナビゲーション(iin)は、未探索の環境でゴールイメージで表される特定のオブジェクトにナビゲートすることを目的としている。 このタスクの主な課題は、異なる視点からターゲットオブジェクトを識別すると同時に、同様の障害を拒絶することである。 既存のImageGoal Navigationメソッドは通常、単純なExploration-Exploitationフレームワークを採用し、ナビゲーション中に特定のインスタンスの識別を無視する。 本研究では,物体を距離から区別する際の「確認に近づいた」人間の動作を模倣することを提案する。 具体的には、インスタンスレベルの画像目標ナビゲーションのための新しいモジュール型ナビゲーションフレームワーク、Exploration-Verification-Exploitation (IEVE) を設計する。 本手法は,探索,検証,搾取行動の活発な切り替えを可能にし,エージェントが異なる状況下で合理的な意思決定を行うのを容易にする。 habitatmatterport 3d semantic (hm3d-sem) データセットでは、従来のセグメンテーションモデル (0.684対0.561の成功) やロバストモデル (0.702対0.561成功) によって、従来の最先端処理を上回っている。 私たちのコードはhttps://github.com/XiaohanLei/IEVE.comで公開されます。

As a new embodied vision task, Instance ImageGoal Navigation (IIN) aims to navigate to a specified object depicted by a goal image in an unexplored environment. The main challenge of this task lies in identifying the target object from different viewpoints while rejecting similar distractors. Existing ImageGoal Navigation methods usually adopt the simple Exploration-Exploitation framework and ignore the identification of specific instance during navigation. In this work, we propose to imitate the human behaviour of ``getting closer to confirm" when distinguishing objects from a distance. Specifically, we design a new modular navigation framework named Instance-aware Exploration-Verification-Exploitation (IEVE) for instance-level image goal navigation. Our method allows for active switching among the exploration, verification, and exploitation actions, thereby facilitating the agent in making reasonable decisions under different situations. On the challenging HabitatMatterport 3D semantic (HM3D-SEM) dataset, our method surpasses previous state-of-the-art work, with a classical segmentation model (0.684 vs. 0.561 success) or a robust model (0.702 vs. 0.561 success). Our code will be made publicly available at https://github.com/XiaohanLei/IEVE.
翻訳日:2024-02-28 15:43:41 公開日:2024-02-25
# 量子アニール用4軸ネットワーク微小埋め込み

4-clique Network Minor Embedding for Quantum Annealers ( http://arxiv.org/abs/2301.08807v4 )

ライセンス: Link先を確認
Elijah Pelofske(参考訳) 量子アニーリング(quantum annealing)は、組合せ最適化問題の解を計算する量子アルゴリズムである。 本研究は, 4-clique network minor embeddeding と呼ばれる, スパース量子アニーリングハードウェアグラフへのマイナー埋め込み最適化問題を提案する。 この方法は、線形連結量子ビットの経路を用いて論理変数の状態を表現する標準的なマイナー埋め込み技術とは対照的である。 ペガサスグラフ接続(pegasus graph connectivity)は、現在のd波量子アニーラのネイティブなハードウェアグラフである。 ペガサス・ハードウエアグラフはサイズ 4 の多くの斜め線を含むため、問題に小さな埋め込みが可能である連結 4-斜めの経路からなるグラフを形成することができる。 4-クライクチェーンは、ハードウェアグラフに量子ビットを付加するコストがかかるが、各チェーン内のより強固な結合が可能となり、チェーン完全性が向上し、チェーン切断が減少し、現在の量子アニーラにおける論理問題係数のプログラミングに利用可能なエネルギースケールがより多く使用されるようになる。 ペガサス・ハードウエアグラフを用いた2つのD-Wave量子アニールプロセッサの実験により, 標準線形パスのマイナー埋め込みと比較した。 本研究は, ランダム全スピンガラス問題インスタンスの最小化に成功しながら, 弱鎖強度を用いた4軸微小埋め込みの実証実験を示す。

Quantum annealing is a quantum algorithm for computing solutions to combinatorial optimization problems. This study proposes a method for minor embedding optimization problems onto sparse quantum annealing hardware graphs called 4-clique network minor embedding. This method is in contrast to the standard minor embedding technique of using a path of linearly connected qubits in order to represent a logical variable state. The 4-clique minor embedding is possible on Pegasus graph connectivity, which is the native hardware graph for some of the current D-Wave quantum annealers. The Pegasus hardware graph contains many cliques of size 4, making it possible to form a graph composed entirely of paths of connected 4-cliques on which a problem can be minor embedded. The 4-clique chains come at the cost of additional qubit usage on the hardware graph, but they allow for stronger coupling within each chain thereby increasing chain integrity, reducing chain breaks, and allow for greater usage of the available energy scale for programming logical problem coefficients on current quantum annealers. The 4-clique minor embedding technique is compared against the standard linear path minor embedding with experiments on two D-Wave quantum annealing processors with Pegasus hardware graphs. We show proof of concept experiments where the 4-clique minor embeddings can use weak chain strengths while successfully carrying out the computation of minimizing random all-to-all spin glass problem instances.
翻訳日:2024-02-28 00:59:57 公開日:2024-02-25
# 非IIDフェデレーション学習におけるMomentumのメリット

Momentum Benefits Non-IID Federated Learning Simply and Provably ( http://arxiv.org/abs/2306.16504v2 )

ライセンス: Link先を確認
Ziheng Cheng, Xinmeng Huang, Kun Yuan(参考訳) フェデレーション学習は、大規模機械学習の強力なパラダイムだが、信頼性の低いネットワーク接続、遅い通信、クライアント間のデータの不均一性など、大きな課題に直面している。 FedAvgとSCAFFOLDは、これらの課題に対処する2つの顕著なアルゴリズムである。 特に、FedAvgは中央サーバと通信する前に複数のローカル更新を使用するが、SCAFFOLDはローカル更新で‘client drift’を補うために各クライアントに制御変数を保持する。 これら2つのアルゴリズムの収束性を高めるために様々な方法が提案されているが、アルゴリズム構造に非現実的な調整を行うか、境界データの不均一性の仮定に依存する。 本稿では,FedAvgとSCAFFOLDの性能向上のための運動量の利用について検討する。 すべてのクライアントがトレーニングプロセスに参加すると、momentumを組み込むことで、一定の局所学習率を使用しても、境界データの不均一性の仮定に頼らずにfedavgを収束させることができることを実証する。 FedAvgの既存の分析では、局所的な学習率の低下にもかかわらず、境界データの均一性を要求されている。 部分的な顧客参加において,momentumは,追加の仮定を課さずに足場が確実に早く収束できることを示す。 さらに,FedAvg と SCAFFOLD の新たな分散還元拡張を開発するために運動量を用いて,最先端の収束率を示す。 実験結果はすべての理論的結果を支持する。

Federated learning is a powerful paradigm for large-scale machine learning, but it faces significant challenges due to unreliable network connections, slow communication, and substantial data heterogeneity across clients. FedAvg and SCAFFOLD are two prominent algorithms to address these challenges. In particular, FedAvg employs multiple local updates before communicating with a central server, while SCAFFOLD maintains a control variable on each client to compensate for ``client drift'' in its local updates. Various methods have been proposed to enhance the convergence of these two algorithms, but they either make impractical adjustments to the algorithmic structure or rely on the assumption of bounded data heterogeneity. This paper explores the utilization of momentum to enhance the performance of FedAvg and SCAFFOLD. When all clients participate in the training process, we demonstrate that incorporating momentum allows FedAvg to converge without relying on the assumption of bounded data heterogeneity even using a constant local learning rate. This is novel and fairly surprising as existing analyses for FedAvg require bounded data heterogeneity even with diminishing local learning rates. In partial client participation, we show that momentum enables SCAFFOLD to converge provably faster without imposing any additional assumptions. Furthermore, we use momentum to develop new variance-reduced extensions of FedAvg and SCAFFOLD, which exhibit state-of-the-art convergence rates. Our experimental results support all theoretical findings.
翻訳日:2024-02-28 00:53:02 公開日:2024-02-25
# ノイズの多い量子木:補正なしの無限保護

Noisy Quantum Trees: Infinite Protection Without Correction ( http://arxiv.org/abs/2306.14294v2 )

ライセンス: Link先を確認
Shiv Akshar Yadavalli and Iman Marvian(参考訳) 我々は,情報を根から葉へと伝播する木構造を持つ量子ネットワークについて研究する。 ネットワークの各ノードにおいて、受信したキュービットは、新鮮なアンシラキュービットと一元的に相互作用し、その後、各キュービットはノイズチャンネルを介して次のレベルにある別のノードに送信される。 したがって,木深度が大きくなるにつれて,情報の非局在化によって達成される騒音に対する可逆効果と保護との競合が生じる。 各ノードが入力ビットを複数の出力ビットにコピーする古典的な設定では、このモデルは広く応用されている木上でのブロードキャストや再構成の問題として研究されてきた。 本研究では,この問題の量子バージョンについて検討する。 本稿では,各ノードにおけるCliffordエンコーダについて検討し,各エッジに単一キュービットのPauliノイズチャネルとともに,入力キュービットを安定化器コードに符号化する。 このようなノイズの多い量子ツリーは、新しい(エントロピーの低い)アンシラキュービットのストリームにアクセスするが、エラー訂正はできないというシナリオを記述している。 したがって、量子フォールトトレランスに関する異なる視点を提供する。 さらに、連結符号のエンコーダ内のノイズの影響を記述するための有用なモデルを提供する。 我々は、その距離などのコードの性質やエンコーダの特性に依存する特定のノイズしきい値を超えると、情報は木の深さとともに指数関数的に減衰することを示す。 一方、ある効率的なデコーダを調べることによって、距離 $d\geq2$ と十分小さい(しかしゼロでない)ノイズ、古典的情報、および絡み合いが無限の深さのノイズ木の上を伝播することを証明する。 実際、これは各ノードに特定の2-qubitエンコーダを持つバイナリツリーにも当てはまり、受信したキュービットを距離$d=1$のバイナリ繰り返しコードにエンコードする。

We study quantum networks with tree structures, in which information propagates from a root to leaves. At each node in the network, the received qubit unitarily interacts with fresh ancilla qubits, after which each qubit is sent through a noisy channel to a different node in the next level. Therefore, as the tree depth grows, there is a competition between the irreversible effect of noise and the protection against such noise achieved by delocalization of information. In the classical setting, where each node simply copies the input bit into multiple output bits, this model has been studied as the broadcasting or reconstruction problem on trees, which has broad applications. In this work, we study the quantum version of this problem. We consider a Clifford encoder at each node that encodes the input qubit in a stabilizer code, along with a single qubit Pauli noise channel at each edge. Such noisy quantum trees describe a scenario in which one has access to a stream of fresh (low-entropy) ancilla qubits, but cannot perform error correction. Therefore, they provide a different perspective on quantum fault tolerance. Furthermore, they provide a useful model for describing the effect of noise within the encoders of concatenated codes. We prove that above certain noise thresholds, which depend on the properties of the code such as its distance, as well as the properties of the encoder, information decays exponentially with the depth of the tree. On the other hand, by studying certain efficient decoders, we prove that for codes with distance $d\geq2$ and for sufficiently small (but non-zero) noise, classical information and entanglement propagate over a noisy tree with infinite depth. Indeed, we find that this remains true even for binary trees with certain 2-qubit encoders at each node, which encode the received qubit in the binary repetition code with distance $d=1$.
翻訳日:2024-02-28 00:52:34 公開日:2024-02-25
# dos: 分散検出のための多様な外れ値サンプリング

DOS: Diverse Outlier Sampling for Out-of-Distribution Detection ( http://arxiv.org/abs/2306.02031v2 )

ライセンス: Link先を確認
Wenyu Jiang, Hao Cheng, Mingcai Chen, Chongjun Wang, Hongxin Wei(参考訳) 現代のニューラルネットワークは、オープンワールドにデプロイされたときに、分散していない入力に対して自信過剰な予測を与えることが知られている。 トレーニング中にモデルを正規化するためにサロゲートアウトリアーデータセットを利用するのが一般的であり、最近の研究では、アウトリアーデータセットのサンプリング戦略の設計における不確実性の役割を強調している。 しかし、予測不確実性のみに基づいて選択されたOODサンプルは、特定のタイプに偏りがあり、完全な外れ値分布の取得に失敗する可能性がある。 本研究では,OOD検出性能の外れ値のサンプリングに多様性が重要であることを実証的に示す。 本研究の目的は,多種多様かつ情報的外乱を選択するためのDOS(Diverse Outlier Smpling)という,単純で斬新なサンプリング手法を提案することである。 具体的には、各イテレーションで正規化された特徴をクラスタ化し、各クラスタから最も有意義な外れ値を選択して、カテゴリ損失のないモデルトレーニングを行う。 DOSでは、サンプル出力はIDデータとOODデータの間のグローバルにコンパクトな決定境界を効率的に形成する。 大規模な実験はDOSの優位性を示し、TI-300KのCIFAR-100では平均FPR95を25.79%削減した。

Modern neural networks are known to give overconfident prediction for out-of-distribution inputs when deployed in the open world. It is common practice to leverage a surrogate outlier dataset to regularize the model during training, and recent studies emphasize the role of uncertainty in designing the sampling strategy for outlier dataset. However, the OOD samples selected solely based on predictive uncertainty can be biased towards certain types, which may fail to capture the full outlier distribution. In this work, we empirically show that diversity is critical in sampling outliers for OOD detection performance. Motivated by the observation, we propose a straightforward and novel sampling strategy named DOS (Diverse Outlier Sampling) to select diverse and informative outliers. Specifically, we cluster the normalized features at each iteration, and the most informative outlier from each cluster is selected for model training with absent category loss. With DOS, the sampled outliers efficiently shape a globally compact decision boundary between ID and OOD data. Extensive experiments demonstrate the superiority of DOS, reducing the average FPR95 by up to 25.79% on CIFAR-100 with TI-300K.
翻訳日:2024-02-28 00:51:18 公開日:2024-02-25
# 異方性コントラストコラボレーティブフィルタ

Disentangled Contrastive Collaborative Filtering ( http://arxiv.org/abs/2305.02759v4 )

ライセンス: Link先を確認
Xubin Ren, Lianghao Xia, Jiashu Zhao, Dawei Yin and Chao Huang(参考訳) 近年の研究では、グラフニューラルネットワーク(GNN)が協調フィルタリング(CF)の高次関係のモデル化に有効であることが示されている。 この研究ラインに向けて,グラフコントラスト学習(GCL)は,拡張ユーザとアイテム表現を学習することで,監督ラベル不足問題に対処する上で,強力な性能を示した。 多くは有効性を示しているが、2つの重要な疑問はまだ未解決のままである。 i) 既存のgclベースのcfモデルは,ユーザとコンテンツの相互作用行動が多種多様な潜在意図要因(例えば,家族に対する買い物,好みの色,商品のブランドなど)によって引き起こされるという事実を無視して,いまだに制限されている。 二 導入した非適応増強技術は、ノイズ情報に弱いため、モデルの堅牢性及び誤った自己管理信号の導入リスクへの懸念を生じさせる。 これらの制約を考慮して,自己監督型拡張による意図的絡み合いを実現するためのDCCF(Disentangled Contrasative Collaborative Filtering framework)を提案する。 学習された異角形表現と大域的文脈により,dccfは,絡み合った自己スーパービジョン信号からきめ細かな潜伏因子を抽出できるだけでなく,拡張によるノイズを軽減することができる。 最後に、パラメータ化された相互作用マスク生成器による適応的な拡張を実現するために、クロスビューコントラスト学習タスクを導入した。 各種公開データセットを用いた実験により,提案手法が既存ソリューションよりも優れていることを示す。 私たちのモデル実装はリンクhttps://github.com/hkuds/dccfでリリースしています。

Recent studies show that graph neural networks (GNNs) are prevalent to model high-order relationships for collaborative filtering (CF). Towards this research line, graph contrastive learning (GCL) has exhibited powerful performance in addressing the supervision label shortage issue by learning augmented user and item representations. While many of them show their effectiveness, two key questions still remain unexplored: i) Most existing GCL-based CF models are still limited by ignoring the fact that user-item interaction behaviors are often driven by diverse latent intent factors (e.g., shopping for family party, preferred color or brand of products); ii) Their introduced non-adaptive augmentation techniques are vulnerable to noisy information, which raises concerns about the model's robustness and the risk of incorporating misleading self-supervised signals. In light of these limitations, we propose a Disentangled Contrastive Collaborative Filtering framework (DCCF) to realize intent disentanglement with self-supervised augmentation in an adaptive fashion. With the learned disentangled representations with global context, our DCCF is able to not only distill finer-grained latent factors from the entangled self-supervision signals but also alleviate the augmentation-induced noise. Finally, the cross-view contrastive learning task is introduced to enable adaptive augmentation with our parameterized interaction mask generator. Experiments on various public datasets demonstrate the superiority of our method compared to existing solutions. Our model implementation is released at the link https://github.com/HKUDS/DCCF.
翻訳日:2024-02-28 00:49:14 公開日:2024-02-25
# 情報指向ランダムウォークを用いた分散グラフ埋め込み

Distributed Graph Embedding with Information-Oriented Random Walks ( http://arxiv.org/abs/2303.15702v2 )

ライセンス: Link先を確認
Peng Fang, Arijit Khan, Siqiang Luo, Fang Wang, Dan Feng, Zhenli Li, Wei Yin, Yuchao Cao(参考訳) グラフ埋め込みはグラフノードを低次元ベクトルにマッピングし、機械学習タスクで広く採用されている。 10億を超えるエッジを持つTwitter上のリンク予測など、大規模なグラフに効率よく効果的な埋め込みを学習することの重要性が強調されている。 既存のグラフ埋め込みメソッドの多くは、高いデータスケーラビリティに到達できない。 本稿では,数十億のエッジグラフを埋め込むためにスケール可能な,汎用的で分散された情報中心のランダムウォークベースのグラフ埋め込みフレームワークDistGERを提案する。 DistGERは情報中心のランダムウォークを漸進的に計算する。 さらに、マルチプロキシ対応、ストリーミング、並列グラフパーティショニング戦略を活用し、高いローカルパーティショニング品質とマシン間のワークロード分散を同時に達成する。 DistGERはまた、分散Skip-Gram学習モデルを改善し、アクセス局所性、CPUスループット、同期効率を最適化することでノード埋め込みを生成する。 実世界のグラフの実験では、KnightKing、DistDGL、Pytorch-BigGraphといった最先端の分散グラフ埋め込みフレームワークと比較して、DistGERは2.33x-129xの加速、マシン間通信の45%の削減、そして、ダウンストリームタスクにおける10%の有効性向上を示している。

Graph embedding maps graph nodes to low-dimensional vectors, and is widely adopted in machine learning tasks. The increasing availability of billion-edge graphs underscores the importance of learning efficient and effective embeddings on large graphs, such as link prediction on Twitter with over one billion edges. Most existing graph embedding methods fall short of reaching high data scalability. In this paper, we present a general-purpose, distributed, information-centric random walk-based graph embedding framework, DistGER, which can scale to embed billion-edge graphs. DistGER incrementally computes information-centric random walks. It further leverages a multi-proximity-aware, streaming, parallel graph partitioning strategy, simultaneously achieving high local partition quality and excellent workload balancing across machines. DistGER also improves the distributed Skip-Gram learning model to generate node embeddings by optimizing the access locality, CPU throughput, and synchronization efficiency. Experiments on real-world graphs demonstrate that compared to state-of-the-art distributed graph embedding frameworks, including KnightKing, DistDGL, and Pytorch-BigGraph, DistGER exhibits 2.33x-129x acceleration, 45% reduction in cross-machines communication, and > 10% effectiveness improvement in downstream tasks.
翻訳日:2024-02-28 00:47:47 公開日:2024-02-25
# CompoDiff:Versatileの合成画像検索と遅延拡散

CompoDiff: Versatile Composed Image Retrieval With Latent Diffusion ( http://arxiv.org/abs/2303.11916v3 )

ライセンス: Link先を確認
Geonmo Gu and Sanghyuk Chun and Wonjae Kim and HeeJae Jun and Yoohoon Kang and Sangdoo Yun(参考訳) 本稿では,ゼロショット合成画像検索(ZS-CIR)を遅延拡散で解くための新しい拡散モデルCompoDiffを提案する。 また,CIRモデルをトレーニングするための1880万の参照画像,条件,および対応するターゲット画像三重項を含む,SynthTriplets18Mという新しい合成データセットも紹介した。 CompoDiffとSynthTriplets18Mは、小さなデータセットスケールと限られた条件による一般化性の低下など、従来のCIRアプローチの不足に対処している。 CompoDiffは、FashionIQ、CIRR、CIRCO、GeneCISを含む4つのZS-CIRベンチマークで新たな最先端を達成しているだけでなく、ネガティブテキストやイメージマスク条件などのさまざまな条件を受け入れることで、より汎用的で制御可能なCIRを実現している。 CompoDiffはまた、テキストと画像クエリ間の条件強度の制御性と、既存のCIRメソッドでは利用できない推論速度と性能のトレードオフも示す。 コードとデータセットはhttps://github.com/navervision/compodiffで入手できる。

This paper proposes a novel diffusion-based model, CompoDiff, for solving zero-shot Composed Image Retrieval (ZS-CIR) with latent diffusion. This paper also introduces a new synthetic dataset, named SynthTriplets18M, with 18.8 million reference images, conditions, and corresponding target image triplets to train CIR models. CompoDiff and SynthTriplets18M tackle the shortages of the previous CIR approaches, such as poor generalizability due to the small dataset scale and the limited types of conditions. CompoDiff not only achieves a new state-of-the-art on four ZS-CIR benchmarks, including FashionIQ, CIRR, CIRCO, and GeneCIS, but also enables a more versatile and controllable CIR by accepting various conditions, such as negative text, and image mask conditions. CompoDiff also shows the controllability of the condition strength between text and image queries and the trade-off between inference speed and performance, which are unavailable with existing CIR methods. The code and dataset are available at https://github.com/navervision/CompoDiff
翻訳日:2024-02-28 00:47:12 公開日:2024-02-25
# ALI-DPFL:適応的局所反復による個人的フェデレーション学習

ALI-DPFL: Differentially Private Federated Learning with Adaptive Local Iterations ( http://arxiv.org/abs/2308.10457v4 )

ライセンス: Link先を確認
Xinpeng Ling, Jie Fu, Kuncan Wang, Haitao Liu, Zhili Chen(参考訳) Federated Learning(FL)は、データではなくトレーニングパラメータを共有することで、複数のデバイスや組織間のモデルトレーニングを可能にする分散機械学習技術である。 しかし、敵はこれらの訓練パラメータの推論攻撃(例えば差分攻撃)を通じて個人情報を推論することができる。 その結果、ディファレンシャルプライバシ(dp)はそのような攻撃を防ぐためにflで広く使われている。 我々は、プライバシ予算とコミュニケーションラウンドの両方に制約があるリソース制約のあるシナリオにおいて、差分プライベートなフェデレーション学習を考察する。 収束を理論的に解析することにより、2つのシーケンシャルなグローバルアップデートの間に、クライアントのローカルDPSGDイテレーションの最適な数を見つけることができる。 そこで我々は,適応的局所反復(ALI-DPFL)を用いた微分プライベート・フェデレーション学習アルゴリズムを設計した。 我々は,MNIST,FashionMNIST,Cifar10データセットのアルゴリズムを実験し,資源制約シナリオにおけるこれまでの作業よりもはるかに優れた性能を示す。 コードはhttps://anonymous.4open.science/r/ALI-DPFL-5347で公開されている。

Federated Learning (FL) is a distributed machine learning technique that allows model training among multiple devices or organizations by sharing training parameters instead of raw data. However, adversaries can still infer individual information through inference attacks (e.g. differential attacks) on these training parameters. As a result, Differential Privacy (DP) has been widely used in FL to prevent such attacks. We consider differentially private federated learning in a resource-constrained scenario, where both privacy budget and communication rounds are constrained. By theoretically analyzing the convergence, we can find the optimal number of local DPSGD iterations for clients between any two sequential global updates. Based on this, we design an algorithm of Differentially Private Federated Learning with Adaptive Local Iterations (ALI-DPFL). We experiment our algorithm on the MNIST, FashionMNIST and Cifar10 datasets, and demonstrate significantly better performances than previous work in the resource-constraint scenario. Code is available at https://anonymous.4open.science/r/ALI-DPFL-5347.
翻訳日:2024-02-28 00:41:03 公開日:2024-02-25
# 原子中の高調波発生のアナログシミュレーション

Analog simulation of high harmonic generation in atoms ( http://arxiv.org/abs/2308.10223v2 )

ライセンス: Link先を確認
Javier Arg\"uello-Luengo, Javier Rivera-Dean, Philipp Stammer, Andrew S. Maxwell, David M. Weld, Marcelo F. Ciappina and Maciej Lewenstein(参考訳) 材料の超高速ダイナミックスへの実験的アクセスの要求は、印加された強いレーザー場に対する電子応答の理解に挑戦する。 この目的のために、高度に制御可能なポテンシャルを持つ閉じ込められた超低温原子は、いくつかの効果がより容易にアクセスでき、12桁遅くなるシナリオにおける現象を記述できるツールとなっている。 本研究では,attoscienceプラットフォームとアトミック・クラウド・シミュレータのパラメータをマッピングし,高調波発生の放射スペクトルにアクセスするための実験プロトコルを提案する。 これらのシミュレータによって提供されるベンチマークは、拡張核ポテンシャルと短核ポテンシャルの変換効率と、適用された楕円偏波場や超短周期パルスに対する応答に関する新たな洞察を与えることができる。

The demanding experimental access to the ultrafast dynamics of materials challenges our understanding of their electronic response to applied strong laser fields. For this purpose, trapped ultracold atoms with highly controllable potentials have become an enabling tool to describe phenomena in a scenario where some effects are more easily accessible and twelve orders of magnitude slower. In this work, we introduce a mapping between the parameters of attoscience platform and atomic cloud simulators, and propose an experimental protocol to access the emission spectrum of high harmonic generation, a regime that has so far been elusive to cold atom simulation. As we illustrate, the benchmark offered by these simulators can provide new insights on the conversion efficiency of extended and short nuclear potentials, as well as the response to applied elliptical polarized fields or ultrashort few-cycle pulses.
翻訳日:2024-02-28 00:40:35 公開日:2024-02-25
# 記述-論理特徴を持つ命題動的論理の非正規拡張の探索

Exploring Non-Regular Extensions of Propositional Dynamic Logic with Description-Logics Features ( http://arxiv.org/abs/2307.09913v2 )

ライセンス: Link先を確認
Bartosz Bednarczyk(参考訳) ALCを拡張した記述論理において、非正規経路表現が満足度チェックとクエリの決定可能性に与える影響について検討する。 関心のある主な対象はalcregとalcvplで、それぞれ、正規言語とvisible-pushdown言語を使ったwithpath式の拡張です。 第一の ALCreg は、フィッシャーとラドナーのよく知られた命題動的論理の記法的変種である。 第2のALCvplは2007年にLoding and Serreによって導入され調査された。 ALCvpl は ALCreg の多くの既知の決定不能な非正規拡張を一般化する。 我々は一連の決定不能な結果を提供する。 まず, ALCvpl における概念満足度問題に対する決定性は, 一見無作為な自己演算子を加えると失われることを示す。 第2に,alcvplの概念充足可能性問題に対する不確定性を確立する。 興味深いことに、我々の決定不能な証明は、固定されたロール名 r と s に対して、r#s# := { r^n s^n | n in n } の1つの非正規言語のみに依存している。 最後に,従来のデータベース設定とは対照的に,すでに ALC-TBoxes の場合において,r#s# の非正則原子を含むクエリに対するクエリエンタテインメントの不確定性を確立する。

We investigate the impact of non-regular path expressions on the decidability of satisfiability checking and querying in description logics extending ALC. Our primary objects of interest are ALCreg and ALCvpl, the extensions of with path expressions employing, respectively, regular and visibly-pushdown languages. The first one, ALCreg, is a notational variant of the well-known Propositional Dynamic Logic of Fischer and Ladner. The second one, ALCvpl, was introduced and investigated by Loding and Serre in 2007. The logic ALCvpl generalises many known decidable non-regular extensions of ALCreg. We provide a series of undecidability results. First, we show that decidability of the concept satisfiability problem for ALCvpl is lost upon adding the seemingly innocent Self operator. Second, we establish undecidability for the concept satisfiability problem for ALCvpl extended with nominals. Interestingly, our undecidability proof relies only on one single non-regular (visibly-pushdown) language, namely on r#s# := { r^n s^n | n in N } for fixed role names r and s. Finally, in contrast to the classical database setting, we establish undecidability of query entailment for queries involving non-regular atoms from r#s#, already in the case of ALC-TBoxes.
翻訳日:2024-02-28 00:39:04 公開日:2024-02-25
# 解析可溶多体ローゼンツェナー量子電池

Analytically solvable many-body Rosen-Zener quantum battery ( http://arxiv.org/abs/2307.06741v2 )

ライセンス: Link先を確認
Wei-Xi Guo, Fang-Mei Yang, Fu-Quan Dou(参考訳) 量子電池は、量子力学的原理を満たすエネルギー貯蔵装置である。 量子バッテリシステムの分析解を得る方法とフル充電を達成する方法は、量子バッテリの重要な要素である。 ここでは, 量子力学原理を満たすエネルギー貯蔵装置であるローゼンツェナー量子電池について検討する。 量子バッテリシステムの分析解を得る方法とフル充電を達成する方法は、量子バッテリの重要な要素である。 ここでは、原子間相互作用と外部駆動場を含む2レベルシステムでRosen-Zener量子電池について検討する。 保存エネルギー、変化力、エネルギー量子揺らぎ、およびフォン・ノイマンエントロピー(対角エントロピー)の分析解はゲージ変換を用いて導かれる。 外部駆動場強度と走査期間が定量的な関係に合致すると,全充電プロセスが達成できることを実証する。 最終貯蔵エネルギーの局所的最大値は、最終エネルギー変動と対角エントロピーの局所的最小値に対応する。 さらに、原子間相互作用が量子相転移を誘導し、量子電池の最大蓄積エネルギーが量子相転移点付近の最大値に達することを発見した。 この結果は、効率的な量子電池を実現するための洞察に富んだ理論スキームを提供する。

Quantum batteries are energy storage devices that satisfy quantum mechanical principles. How to obtain analytical solutions for quantum battery systems and achieve a full charging is a crucial element of the quantum battery. Here, we investigate the Rosen-Zener Quantum batteries are energy storage devices that satisfy quantum mechanical principles. How to obtain analytical solutions for quantum battery systems and achieve a full charging is a crucial element of the quantum battery. Here, we investigate the Rosen-Zener quantum battery with $N$ two-level systems, which includes atomic interactions and external driving field. The analytical solutions of the stored energy, changing power, energy quantum fluctuations, and von Neumann entropy (diagonal entropy) are derived by employing the gauge transformation. We demonstrate that full charging process can be achieved when the external driving field strength and scanning period conforms to a quantitative relationship. The local maximum value of the final stored energy corresponds to the local minimum values of the final energy fluctuations and diagonal entropy. Moreover, we find that the atomic interaction induces the quantum phase transition and the maximum stored energy of the quantum battery reaches the maximum value near the quantum phase transition point. Our result provides an insightful theoretical scheme to realize the efficient quantum battery.
翻訳日:2024-02-28 00:38:38 公開日:2024-02-25
# SegReg: MR画像とCTアノテーションの登録によるOARのセグメンテーション

SegReg: Segmenting OARs by Registering MR Images and CT Annotations ( http://arxiv.org/abs/2311.06956v2 )

ライセンス: Link先を確認
Zeyu Zhang, Xuyin Qi, Bowen Zhang, Biao Wu, Hien Le, Bora Jeong, Minh-Son To, Richard Hartley(参考訳) 臓器リスクセグメンテーション(OAR)は頭頸部腫瘍などの放射線治療計画において重要なプロセスである。 それでも臨床実践では、放射線腫瘍学者は主にCTスキャンで手動でOARセグメンテーションを行う。 この手作業は、非常に時間がかかり高価であり、タイムリーな放射線治療を受ける患者の数を制限する。 さらに、CTスキャンはMRIと比較してソフト・タスクのコントラストが低い。 MRIは優れたソフト・タスク・ビジュアライゼーションを提供するが、その時間を要する性質により、リアルタイムな治療計画では不可能である。 これらの課題に対処するために,MRIの登録にElastic Symmetric Normalizationを利用するSegRegという手法を提案する。 SegRegはCTのみのベースラインを16.78%、mIoUは18.77%で上回り、CTの幾何学的精度とMRIの優れたソフト・コントラストを効果的に組み合わせ、正確なOARセグメンテーションを臨床訓練のために実現している。 プロジェクトウェブサイト https://steve-zeyu-zhang.github.io/SegReg

Organ at risk (OAR) segmentation is a critical process in radiotherapy treatment planning such as head and neck tumors. Nevertheless, in clinical practice, radiation oncologists predominantly perform OAR segmentations manually on CT scans. This manual process is highly time-consuming and expensive, limiting the number of patients who can receive timely radiotherapy. Additionally, CT scans offer lower soft-tissue contrast compared to MRI. Despite MRI providing superior soft-tissue visualization, its time-consuming nature makes it infeasible for real-time treatment planning. To address these challenges, we propose a method called SegReg, which utilizes Elastic Symmetric Normalization for registering MRI to perform OAR segmentation. SegReg outperforms the CT-only baseline by 16.78% in mDSC and 18.77% in mIoU, showing that it effectively combines the geometric accuracy of CT with the superior soft-tissue contrast of MRI, making accurate automated OAR segmentation for clinical practice become possible. See project website https://steve-zeyu-zhang.github.io/SegReg
翻訳日:2024-02-28 00:32:01 公開日:2024-02-25
# 無線ネットワークにおけるビデオキャッシングのためのリソースアウェア階層型フェデレート学習

Resource-Aware Hierarchical Federated Learning for Video Caching in Wireless Networks ( http://arxiv.org/abs/2311.06918v3 )

ライセンス: Link先を確認
Md Ferdous Pervej and Andreas F Molisch(参考訳) ビデオキャッシングは、ユーザーが頻繁に要求する人気のコンテンツをローカルに保存することで、交通渋滞を著しく改善することができる。 ユーザの要求が時間とともにどのように変化するかを学ぶためには,プライバシ保護手法が望ましい。 そこで本研究では,コンテンツ要求が散発的であり,ユーザのデータセットは要求されたコンテンツの情報に基づいてのみ更新可能であるという現実的な仮定の下で,ユーザの今後のコンテンツ要求を予測するための,リソース対応階層型学習(RawHFL)ソリューションを提案する。 部分的なクライアント参加の場合を考えると、まず、クライアントのローカルトレーニングラウンドに依存するグローバルグラデーションノルムの上限と、無線リンク上で蓄積されたグラデーションの受信の成功を導出する。 遅延,エネルギー,無線リソースの制約の下で,RawHFLの収束をエネルギー効率よく促進する重み付きユーティリティ関数を最小化するために,クライアントの選択とその局所ラウンドとCPU周波数を最適化する。 シミュレーション結果から,提案手法は予測精度と総エネルギー消費量の点で基準値を大きく上回ることがわかった。

Video caching can significantly improve backhaul traffic congestion by locally storing the popular content that users frequently request. A privacy-preserving method is desirable to learn how users' demands change over time. As such, this paper proposes a novel resource-aware hierarchical federated learning (RawHFL) solution to predict users' future content requests under the realistic assumptions that content requests are sporadic and users' datasets can only be updated based on the requested content's information. Considering a partial client participation case, we first derive the upper bound of the global gradient norm that depends on the clients' local training rounds and the successful reception of their accumulated gradients over the wireless links. Under delay, energy and radio resource constraints, we then optimize client selection and their local rounds and central processing unit (CPU) frequencies to minimize a weighted utility function that facilitates RawHFL's convergence in an energy-efficient way. Our simulation results show that the proposed solution significantly outperforms the considered baselines in terms of prediction accuracy and total energy expenditure.
翻訳日:2024-02-28 00:31:42 公開日:2024-02-25
# 限られたサンプルを対象とする超高次視覚分類のための学習コントラスト自己蒸留法

Learning Contrastive Self-Distillation for Ultra-Fine-Grained Visual Categorization Targeting Limited Samples ( http://arxiv.org/abs/2311.06056v2 )

ライセンス: Link先を確認
Ziye Fang, Xin Jiang, Hao Tang, Zechao Li(参考訳) インテリジェントマルチメディア分析の分野では、Ultra-FGVC(Ultra-FGVC)はより広いカテゴリの複雑なサブカテゴリを区別する上で重要な役割を担っている。 しかし、この課題は、カテゴリ区分の複雑な粒度と、カテゴリごとのデータ可用性の制限により本質的に困難である。 これらの課題に対処するため、この研究は、Ultra-FGVCタスク用に特別に設計された識別表現を学習するために、対照的な学習と自己蒸留を効果的に探求する先駆的なフレームワークであるCSDNetを提案する。 CSDNetは3つの主要なモジュールで構成されている: Subcategory-Specific Discrepancy Parsing (SSDP)、Dynamic Discrepancy Learning (DDL)、Subcategory-Specific Discrepancy Transfer (SSDT)。 トレーニングサンプルの多様性を高めるため、SSDPモジュールはスポットライトのサブカテゴリ固有の相違に適応的な拡張サンプルを導入する。 同時に提案するDDLモジュールは,動的メモリキューによって履歴中間機能を格納し,反復的コントラスト学習により特徴学習空間を最適化する。 さらに、SSDTモジュールは、ロジット予測レベルで自己蒸留パラダイムを用いて、限られたトレーニングデータの固有の構造から、サブカテゴリ固有の不一致知識を効果的に蒸留する。 実験の結果、CSDNetは現在のUltra-FGVC法よりも優れており、Ultra-FGVCタスクに対処する上で、その強力な有効性と適応性を強調している。

In the field of intelligent multimedia analysis, ultra-fine-grained visual categorization (Ultra-FGVC) plays a vital role in distinguishing intricate subcategories within broader categories. However, this task is inherently challenging due to the complex granularity of category subdivisions and the limited availability of data for each category. To address these challenges, this work proposes CSDNet, a pioneering framework that effectively explores contrastive learning and self-distillation to learn discriminative representations specifically designed for Ultra-FGVC tasks. CSDNet comprises three main modules: Subcategory-Specific Discrepancy Parsing (SSDP), Dynamic Discrepancy Learning (DDL), and Subcategory-Specific Discrepancy Transfer (SSDT), which collectively enhance the generalization of deep models across instance, feature, and logit prediction levels. To increase the diversity of training samples, the SSDP module introduces adaptive augmented samples to spotlight subcategory-specific discrepancies. Simultaneously, the proposed DDL module stores historical intermediate features by a dynamic memory queue, which optimizes the feature learning space through iterative contrastive learning. Furthermore, the SSDT module effectively distills subcategory-specific discrepancies knowledge from the inherent structure of limited training data using a self-distillation paradigm at the logit prediction level. Experimental results demonstrate that CSDNet outperforms current state-of-the-art Ultra-FGVC methods, emphasizing its powerful efficacy and adaptability in addressing Ultra-FGVC tasks.
翻訳日:2024-02-28 00:31:21 公開日:2024-02-25
# 推薦のための大規模言語モデルによる表現学習

Representation Learning with Large Language Models for Recommendation ( http://arxiv.org/abs/2310.15950v4 )

ライセンス: Link先を確認
Xubin Ren, Wei Wei, Lianghao Xia, Lixin Su, Suqi Cheng, Junfeng Wang, Dawei Yin, Chao Huang(参考訳) レコメンダシステムは、ディープラーニングとグラフニューラルネットワークの影響、特に複雑なユーザとテーマの関係を捉えることで大きな進歩を遂げている。 しかし、これらのグラフベースのレコメンデータは、IDベースのデータに大きく依存しており、ユーザやアイテムに関連する貴重なテキスト情報を無視する可能性がある。 さらに、暗黙的なフィードバックデータの利用は潜在的なノイズとバイアスを導入し、ユーザの嗜好学習の有効性に挑戦する。 大規模言語モデル(LLM)を従来のIDベースのレコメンダに統合することは注目されているが、スケーラビリティの問題、テキストのみ依存の制限、実用的なレコメンダシステムにおける効果的な実装のためには入力制約に対処する必要がある。 これらの課題に対処するため,LLMを用いた表現学習により既存のレコメンデータを強化することを目的としたモデルに依存しないフレームワーク RLMRec を提案する。 ユーザ行動や嗜好の複雑な意味的側面を捉えるために,表現学習とLLMを統合したレコメンデーションパラダイムを提案する。 RLMRecには補助的なテキスト信号が組み込まれており、LLMによって強化されたユーザ/イテムプロファイリングのパラダイムが開発されており、LLMのセマンティック空間と協調的な関係信号の表現空間を、クロスビューアライメントフレームワークを通じて整列する。 この研究はさらに、相互情報最大化によるテキスト信号の統合が表現の質を高めることを実証する理論的基礎を確立する。 本評価では,rlmrecを最先端のレコメンダモデルに統合するとともに,ノイズデータに対する効率性とロバスト性を分析する。 実装コードはhttps://github.com/hkuds/rlmrecで利用可能です。

Recommender systems have seen significant advancements with the influence of deep learning and graph neural networks, particularly in capturing complex user-item relationships. However, these graph-based recommenders heavily depend on ID-based data, potentially disregarding valuable textual information associated with users and items, resulting in less informative learned representations. Moreover, the utilization of implicit feedback data introduces potential noise and bias, posing challenges for the effectiveness of user preference learning. While the integration of large language models (LLMs) into traditional ID-based recommenders has gained attention, challenges such as scalability issues, limitations in text-only reliance, and prompt input constraints need to be addressed for effective implementation in practical recommender systems. To address these challenges, we propose a model-agnostic framework RLMRec that aims to enhance existing recommenders with LLM-empowered representation learning. It proposes a recommendation paradigm that integrates representation learning with LLMs to capture intricate semantic aspects of user behaviors and preferences. RLMRec incorporates auxiliary textual signals, develops a user/item profiling paradigm empowered by LLMs, and aligns the semantic space of LLMs with the representation space of collaborative relational signals through a cross-view alignment framework. This work further establish a theoretical foundation demonstrating that incorporating textual signals through mutual information maximization enhances the quality of representations. In our evaluation, we integrate RLMRec with state-of-the-art recommender models, while also analyzing its efficiency and robustness to noise data. Our implementation codes are available at https://github.com/HKUDS/RLMRec.
翻訳日:2024-02-28 00:30:06 公開日:2024-02-25
# Think, Act, and Ask: オープンワールドの対話型パーソナライズされたロボットナビゲーション

Think, Act, and Ask: Open-World Interactive Personalized Robot Navigation ( http://arxiv.org/abs/2310.07968v2 )

ライセンス: Link先を確認
Yinpei Dai, Run Peng, Sikai Li, Joyce Chai(参考訳) ゼロショットオブジェクトナビゲーション(zson)は、エージェントが未知の環境でオープンボキャブラリオブジェクトに向かってナビゲートできるようにする。 ZSONの既存の研究は主に、汎用オブジェクトクラスを見つけるための個々の命令に従うことに焦点を当て、自然言語の相互作用の利用やユーザ固有のオブジェクトを特定する複雑さを無視している。 これらの制限に対処するために,ロボットがユーザと対話しながらパーソナライズされた目標オブジェクトにナビゲートする必要がある,ゼロショット対話型パーソナライズドオブジェクトナビゲーション(zipon)を導入する。 zipon を解くために,大規模言語モデル (llm) を用いて知覚・ナビゲーション・コミュニケーションのためのモジュールを逐次的に操作する open-world interactive personal navigation (orion) という新しいフレームワークを提案する。 実験の結果,ユーザフィードバックを活用できる対話型エージェントの性能は有意な改善を示した。 しかし,タスク完了とナビゲーションとインタラクションの効率のバランスが良好であることは,すべての方法において困難である。 さらに,多様なユーザフィードバックフォームがエージェントのパフォーマンスに与える影響について,さらなる知見を提供する。

Zero-Shot Object Navigation (ZSON) enables agents to navigate towards open-vocabulary objects in unknown environments. The existing works of ZSON mainly focus on following individual instructions to find generic object classes, neglecting the utilization of natural language interaction and the complexities of identifying user-specific objects. To address these limitations, we introduce Zero-shot Interactive Personalized Object Navigation (ZIPON), where robots need to navigate to personalized goal objects while engaging in conversations with users. To solve ZIPON, we propose a new framework termed Open-woRld Interactive persOnalized Navigation (ORION), which uses Large Language Models (LLMs) to make sequential decisions to manipulate different modules for perception, navigation and communication. Experimental results show that the performance of interactive agents that can leverage user feedback exhibits significant improvement. However, obtaining a good balance between task completion and the efficiency of navigation and interaction remains challenging for all methods. We further provide more findings on the impact of diverse user feedback forms on the agents' performance.
翻訳日:2024-02-28 00:28:31 公開日:2024-02-25
# BLADE: ディレクテッド拡張によるボックスレベル監視アモーダルセグメンテーション

BLADE: Box-Level Supervised Amodal Segmentation through Directed Expansion ( http://arxiv.org/abs/2401.01642v3 )

ライセンス: Link先を確認
Zhaochen Liu, Zhixuan Li, Tingting Jiang(参考訳) 隠された物体の完全な形状を認識することは、人間と機械の知性にとって不可欠である。 アモーダルセグメンテーションタスクは、部分的に遮蔽されたオブジェクトの完全なマスクを予測することであるが、ピクセルレベルの基底真理アモーダルマスクに注釈をつけるのに時間と労力がかかる。 box-level supervised amodal segmentationはこの課題に対処し、基底真理バウンディングボックスとインスタンスクラスのみを監督として依存することで、徹底したピクセルレベルのアノテーションの必要性を軽減する。 しかしながら、現在のボックスレベルの方法論は、低解像度マスクと不正確な境界を生成する際の限界に直面する。 本稿では,目に見えるマスクから対応するアモーダルマスクへの拡張アプローチを導入することで,この問題に対処する新しいソリューションを提案する。 重なり合う領域 - 異なるインスタンスが交わる領域 - に基づいて、ハイブリッドなエンドツーエンドネットワークを構築する。 重なり合う領域と非重なり合う領域には, 異なる特徴により, 多様なセグメンテーション戦略を適用する。 可視マスクの拡張を導くために,重なり領域の接続損失を精巧に設計し,可視マスクとの相関を活用し,正確なアモーダルセグメンテーションを容易にする。 提案手法は,いくつかの難解なデータセット上で実験を行い,提案手法が既存の最先端手法を高いマージンで上回ることができることを示した。

Perceiving the complete shape of occluded objects is essential for human and machine intelligence. While the amodal segmentation task is to predict the complete mask of partially occluded objects, it is time-consuming and labor-intensive to annotate the pixel-level ground truth amodal masks. Box-level supervised amodal segmentation addresses this challenge by relying solely on ground truth bounding boxes and instance classes as supervision, thereby alleviating the need for exhaustive pixel-level annotations. Nevertheless, current box-level methodologies encounter limitations in generating low-resolution masks and imprecise boundaries, failing to meet the demands of practical real-world applications. We present a novel solution to tackle this problem by introducing a directed expansion approach from visible masks to corresponding amodal masks. Our approach involves a hybrid end-to-end network based on the overlapping region - the area where different instances intersect. Diverse segmentation strategies are applied for overlapping regions and non-overlapping regions according to distinct characteristics. To guide the expansion of visible masks, we introduce an elaborately-designed connectivity loss for overlapping regions, which leverages correlations with visible masks and facilitates accurate amodal segmentation. Experiments are conducted on several challenging datasets and the results show that our proposed method can outperform existing state-of-the-art methods with large margins.
翻訳日:2024-02-28 00:22:24 公開日:2024-02-25
# 複雑系における発生と因果関係--因果発生と関連する定量的研究

Emergence and Causality in Complex Systems: A Survey on Causal Emergence and Related Quantitative Studies ( http://arxiv.org/abs/2312.16815v3 )

ライセンス: Link先を確認
Bing Yuan, Zhang Jiang, Aobo Lyu, Jiayun Wu, Zhipeng Wang, Mingzhe Yang, Kaiwei Liu, Muyun Mou, Peng Cui(参考訳) 出現と因果性は、複雑なシステムを理解するための2つの基本的な概念である。 相互接続されている。 一方の出現は、マクロ的な性質が個々の性質の原因にのみ帰属できない現象を指す。 一方で因果性は出現する可能性があり、抽象のレベルを上げると新たな因果法則が発生する可能性がある。 因果発生理論はこれらの2つの概念を橋渡しすることを目的としており、出現を定量化するために因果関係の尺度を用いる。 本稿では,最近の定量的理論の進歩と因果発生の応用について概観する。 因果発生の定量化とデータ内の同定だ。 後者に対処するには、機械学習技術を使用する必要があるため、因果発生と人工知能の関連性が確立される。 因果表現学習,因果モデル抽象化,世界モデルに基づく強化学習によって,因果表現の出現を識別するアーキテクチャが共有されることを強調した。 その結果、これらの領域の進展は他の領域の恩恵を受けることができる。 潜在的なアプリケーションと今後の展望も、レビューの最終セクションで議論されている。

Emergence and causality are two fundamental concepts for understanding complex systems. They are interconnected. On one hand, emergence refers to the phenomenon where macroscopic properties cannot be solely attributed to the cause of individual properties. On the other hand, causality can exhibit emergence, meaning that new causal laws may arise as we increase the level of abstraction. Causal emergence theory aims to bridge these two concepts and even employs measures of causality to quantify emergence. This paper provides a comprehensive review of recent advancements in quantitative theories and applications of causal emergence. Two key problems are addressed: quantifying causal emergence and identifying it in data. Addressing the latter requires the use of machine learning techniques, thus establishing a connection between causal emergence and artificial intelligence. We highlighted that the architectures used for identifying causal emergence are shared by causal representation learning, causal model abstraction, and world model-based reinforcement learning. Consequently, progress in any of these areas can benefit the others. Potential applications and future perspectives are also discussed in the final section of the review.
翻訳日:2024-02-28 00:21:46 公開日:2024-02-25
# RLHFにおける政策最適化:予測外データの影響

Policy Optimization in RLHF: The Impact of Out-of-preference Data ( http://arxiv.org/abs/2312.10584v2 )

ライセンス: Link先を確認
Ziniu Li, Tian Xu, Yang Yu(参考訳) 知的エージェントを人間の好みや価値観に合わせることは重要です。 本稿では、DPO(Direct Preference Optimization)とRMB-PO(Reward-Model-Based Policy Optimization)の2つの一般的なアライメント手法について検討する。 RMB-PO+とも呼ばれるRMB-POの変種も検討されている。 これらの方法は、明示的または暗黙的に、選好データから報酬モデルを学習し、ポリシー最適化に使用されるデータによって報酬モデルの一般化能力を解き放つ。 特に、DPOと比較して、RMB-POはポリシー生成データを使用し、RMB-PO+は新たな好みのないデータを活用する。 このような予測外データの影響について検討する。 制御および合成実験により実施した本研究では, DPOが低性能であるのに対し, RMB-PO+は最高性能を示した。 特に,適切な特徴表現をポリシモデルに提供しても,適切な外部参照データを用いたポリシー最適化は,報奨モデルの一般化機能を活用することで,性能を大幅に向上させることがわかった。

Aligning intelligent agents with human preferences and values is important. This paper examines two popular alignment methods: Direct Preference Optimization (DPO) and Reward-Model-Based Policy Optimization (RMB-PO). A variant of RMB-PO, referred to as RMB-PO+ is also considered. These methods, either explicitly or implicitly, learn a reward model from preference data and differ in the data used for policy optimization to unlock the generalization ability of the reward model. In particular, compared with DPO, RMB-PO additionally uses policy-generated data, and RMB-PO+ further leverages new, preference-free data. We examine the impact of such out-of-preference data. Our study, conducted through controlled and synthetic experiments, demonstrates that DPO performs poorly, whereas RMB-PO+ performs the best. In particular, even when providing the policy model with a good feature representation, we find that policy optimization with adequate out-of-preference data significantly improves performance by harnessing the reward model's generalization capabilities.
翻訳日:2024-02-28 00:20:38 公開日:2024-02-25
# METHOD++: 安定サンプリングと正規化変換を用いた自己監督型解剖学的eMbeddings強化医用画像登録フレームワーク

SAME++: A Self-supervised Anatomical eMbeddings Enhanced medical image registration framework using stable sampling and regularized transformation ( http://arxiv.org/abs/2311.14986v2 )

ライセンス: Link先を確認
Lin Tian, Zi Li, Fengze Liu, Xiaoyu Bai, Jia Ge, Le Lu, Marc Niethammer, Xianghua Ye, Ke Yan, Daikai Jin(参考訳) 画像登録は基本的な医療画像解析タスクである。 理想的には、登録は意味的に対応するボクセル、すなわち同じ解剖学的位置の整列に焦点を当てるべきである。 しかし、既存の手法はしばしば、解剖学的意味情報を欠く、強度や手作りの特徴に直接計算される類似度を最適化する。 これらの類似性尺度は、大きな変形、複雑な解剖学的差異、あるいは相互モダリティ像が存在する準最適解をもたらす可能性がある。 本研究では,フォクセルレベルでの2つの画像間の密接な解剖学的対応を計算可能な自己監督型解剖学的eMbedding(SAM)アルゴリズム上に,教師なしの医用画像登録ビルを高速かつ高精度に構築する手法を提案する。 我々は、画像登録をアフィン変換、粗い変形、深度非パラメトリック変換、インスタンス最適化の4つのステップに分割するアプローチSAM-Enhanced registration (SAME++) を命名した。 SAM埋め込みを用いて、よりコヒーレントな対応を見つけ、よりセマンティックなガイダンスを提供することにより、これらのステップを強化する。 今回我々は,50以上のラベル付き臓器を用いて,異なる部位の3つのオブジェクト間登録タスクについて評価を行った。 完全な登録フレームワークとして、Mate++はDiceスコアの点で4.2 %$ - 8.2 %$で、数値最適化ベースのメソッドよりも桁違いに高速である。 コードは \url{https://github.com/alibaba-damo-academy/same} で入手できる。

Image registration is a fundamental medical image analysis task. Ideally, registration should focus on aligning semantically corresponding voxels, i.e., the same anatomical locations. However, existing methods often optimize similarity measures computed directly on intensities or on hand-crafted features, which lack anatomical semantic information. These similarity measures may lead to sub-optimal solutions where large deformations, complex anatomical differences, or cross-modality imagery exist. In this work, we introduce a fast and accurate method for unsupervised 3D medical image registration building on top of a Self-supervised Anatomical eMbedding (SAM) algorithm, which is capable of computing dense anatomical correspondences between two images at the voxel level. We name our approach SAM-Enhanced registration (SAME++), which decomposes image registration into four steps: affine transformation, coarse deformation, deep non-parametric transformation, and instance optimization. Using SAM embeddings, we enhance these steps by finding more coherent correspondence and providing features with better semantic guidance. We extensively evaluated SAME++ using more than 50 labeled organs on three challenging inter-subject registration tasks of different body parts. As a complete registration framework, SAME++ markedly outperforms leading methods by $4.2\%$ - $8.2\%$ in terms of Dice score while being orders of magnitude faster than numerical optimization-based methods. Code is available at \url{https://github.com/alibaba-damo-academy/same}.
翻訳日:2024-02-28 00:18:58 公開日:2024-02-25
# 適応重みクラスタリングとサーバ側蒸留によるコミュニケーション効率の良いフェデレーション学習

Communication-Efficient Federated Learning through Adaptive Weight Clustering and Server-Side Distillation ( http://arxiv.org/abs/2401.14211v3 )

ライセンス: Link先を確認
Vasileios Tsouvalas, Aaqib Saeed, Tanir Ozcelebi and Nirvana Meratnia(参考訳) フェデレートラーニング(FL)は、データプライバシを保持しながら、複数のデバイスにわたるディープニューラルネットワークの協調トレーニングを行うための有望なテクニックである。 潜在的な利点にもかかわらず、flはトレーニング中のサーバ-クライアント間通信の繰り返しによる過剰な通信コストによって妨げられている。 この課題に対処するために、スパーシフィケーションや重みクラスタリングのようなモデル圧縮技術が適用され、モデル集約スキームの変更や、モデル圧縮率の調整だけでなく、成長データに対するモデルの継続的な改善の可能性を制限するため、面倒なハイパーパラメータチューニングを必要とすることが多い。 本稿では,動的重みクラスタリングとサーバ側の知識蒸留を組み合わせた新しい手法であるFedCompressを提案する。 各種公開データセットの包括的評価を通じて,コミュニケーションコストや推論速度の観点から,ベースラインと比較して,アプローチの有効性を示す。

Federated Learning (FL) is a promising technique for the collaborative training of deep neural networks across multiple devices while preserving data privacy. Despite its potential benefits, FL is hindered by excessive communication costs due to repeated server-client communication during training. To address this challenge, model compression techniques, such as sparsification and weight clustering are applied, which often require modifying the underlying model aggregation schemes or involve cumbersome hyperparameter tuning, with the latter not only adjusts the model's compression rate but also limits model's potential for continuous improvement over growing data. In this paper, we propose FedCompress, a novel approach that combines dynamic weight clustering and server-side knowledge distillation to reduce communication costs while learning highly generalizable models. Through a comprehensive evaluation on diverse public datasets, we demonstrate the efficacy of our approach compared to baselines in terms of communication costs and inference speed.
翻訳日:2024-02-28 00:12:23 公開日:2024-02-25
# SegMamba:3D画像セグメンテーションのための長距離連続モデリングマンバ

SegMamba: Long-range Sequential Modeling Mamba For 3D Medical Image Segmentation ( http://arxiv.org/abs/2401.13560v3 )

ライセンス: Link先を確認
Zhaohu Xing, Tian Ye, Yijun Yang, Guang Liu, Lei Zhu(参考訳) トランスフォーマーアーキテクチャは、グローバルリレーションシップのモデリングにおいて顕著な能力を示している。 しかし,高次元医用画像の処理には大きな課題がある。 これは開発を妨げ、このタスクに広く採用される。 状態空間モデル(SSM)としてのMambaは、最近、シーケンシャルモデリングにおける長距離依存の顕著な方法として現れ、その顕著なメモリ効率と計算速度で自然言語処理に優れていた。 その成功にインスパイアされたSegMambaは,全ボリューム特徴の長距離依存性を各スケールで効果的にキャプチャするように設計された,新しい3次元医用画像である。 我々のSegMambaは、Transformerベースの手法とは対照的に、状態空間モデルの観点から全容積特徴モデリングを抜粋し、$64\times 64\times 64$}の解像度のボリューム特徴であっても、優れた処理速度を維持する。 BraTS2023データセットに関する包括的な実験は、SegMambaの有効性と効率を実証している。 SegMambaのコードは、https://github.com/ge-xing/SegMambaで入手できる。

The Transformer architecture has shown a remarkable ability in modeling global relationships. However, it poses a significant computational challenge when processing high-dimensional medical images. This hinders its development and widespread adoption in this task. Mamba, as a State Space Model (SSM), recently emerged as a notable manner for long-range dependencies in sequential modeling, excelling in natural language processing filed with its remarkable memory efficiency and computational speed. Inspired by its success, we introduce SegMamba, a novel 3D medical image \textbf{Seg}mentation \textbf{Mamba} model, designed to effectively capture long-range dependencies within whole volume features at every scale. Our SegMamba, in contrast to Transformer-based methods, excels in whole volume feature modeling from a state space model standpoint, maintaining superior processing speed, even with volume features at a resolution of {$64\times 64\times 64$}. Comprehensive experiments on the BraTS2023 dataset demonstrate the effectiveness and efficiency of our SegMamba. The code for SegMamba is available at: https://github.com/ge-xing/SegMamba
翻訳日:2024-02-28 00:12:08 公開日:2024-02-25
# 安定チャネルの耐故障性

Fault tolerance of stabilizer channels ( http://arxiv.org/abs/2401.12017v2 )

ライセンス: Link先を確認
Michael E. Beverland, Shilin Huang, Vadym Kliuchnikov(参考訳) 安定化器チャネルは、入力安定化器コードから出力安定化器コードにマッピングしながら論理演算を実装する安定化器回路である。 これらは、表面符号やLDPC符号などの安定化符号におけるフォールトトレラントエラー訂正や論理演算の実装に広く用いられ、より広くサブシステム、フロケ、時空符号で使用されている。 広範なノイズモデルの下で, 安定チャネルの耐故障特性を解析するために, 厳密で一般的な定式化を導入する。 これには厳格だが扱いやすい定義と、障害距離のアルゴリズム、安定化チャネルのフック障害が含まれる。 固定された現象論的ノイズモデルよりも回路の欠陥の任意の部分集合に対して定義されたフックフォールトの概念は、フォールトトレラント回路設計に活用できる。 さらに,チャネル組成が故障距離を保持するような必要条件を定式化する。 本手法は, 故障耐性安定回路の設計と解析に応用し, 故障耐性回路の新たな側面を明らかにする。

Stabilizer channels are stabilizer circuits that implement logical operations while mapping from an input stabilizer code to an output stabilizer code. They are widely used to implement fault tolerant error correction and logical operations in stabilizer codes such as surface codes and LDPC codes, and more broadly in subsystem, Floquet and space-time codes. We introduce a rigorous and general formalism to analyze the fault tolerance properties of any stabilizer channel under a broad class of noise models. This includes rigorous but easy-to-work-with definitions and algorithms for the fault distance and hook faults for stabilizer channels. The generalized notion of hook faults which we introduce, defined with respect to an arbitrary subset of a circuit's faults rather than a fixed phenomenological noise model, can be leveraged for fault-tolerant circuit design. Additionally, we establish necessary conditions such that channel composition preserves the fault distance. We apply our framework to design and analyze fault tolerant stabilizer channels for surface codes, revealing novel aspects of fault tolerant circuits.
翻訳日:2024-02-28 00:10:39 公開日:2024-02-25
# CodeAid: 学生と教育者のニーズのバランスをとるLLMベースのプログラミングアシスタントの教室展開の評価

CodeAid: Evaluating a Classroom Deployment of an LLM-based Programming Assistant that Balances Student and Educator Needs ( http://arxiv.org/abs/2401.11314v2 )

ライセンス: Link先を確認
Majeed Kazemitabaar, Runlong Ye, Xiaoning Wang, Austin Z. Henley, Paul Denny, Michelle Craig, Tovi Grossman(参考訳) タイムリーに、プログラミングを学ぶ学生にはパーソナライズされたフィードバックが不可欠です。 ChatGPTのようなLLMベースのツールは即時サポートを提供するが、コードによる直接的な回答は、深い概念的エンゲージメントを妨げる可能性がある。 コードソリューションを明かすことなく、役に立ち、技術的に正しい応答を提供するllmベースのプログラミングアシスタントであるcodeaidを開発しました。 codeaidは概念的な質問に答え、ラインバイラインの説明で擬似コードを生成し、修正提案で生徒の誤ったコードを注釈する。 私たちは12週間の学期で700人の学生のプログラミングクラスにCodeAidをデプロイしました。 8000のCodeAid使用のテーマ分析を行い、毎週の調査と22名の学生インタビューによりさらに充実させた。 次に8人のプログラミング教育者にインタビューし、さらなる洞察を得た。 D1)AIの独特な利点を活用すること、2)認知的エンゲージメントを促進しながらクエリの定式化を簡素化すること、3)モチベーションのある学習を奨励しながら直接の応答を避けること、3)AIの反応を評価し、操作する学生の透明性と制御を維持すること、である。

Timely, personalized feedback is essential for students learning programming. LLM-powered tools like ChatGPT offer instant support, but reveal direct answers with code, which may hinder deep conceptual engagement. We developed CodeAid, an LLM-powered programming assistant delivering helpful, technically correct responses, without revealing code solutions. CodeAid answers conceptual questions, generates pseudo-code with line-by-line explanations, and annotates student's incorrect code with fix suggestions. We deployed CodeAid in a programming class of 700 students for a 12-week semester. A thematic analysis of 8,000 usages of CodeAid was performed, further enriched by weekly surveys, and 22 student interviews. We then interviewed eight programming educators to gain further insights. Our findings reveal four design considerations for future educational AI assistants: D1) exploiting AI's unique benefits; D2) simplifying query formulation while promoting cognitive engagement; D3) avoiding direct responses while encouraging motivated learning; and D4) maintaining transparency and control for students to asses and steer AI responses.
翻訳日:2024-02-28 00:10:21 公開日:2024-02-25
# Schr\\odinger型量子シミュレーションのロッシー圧縮

Lossy Compression for Schr\"odinger-style Quantum Simulations ( http://arxiv.org/abs/2401.11088v2 )

ライセンス: Link先を確認
Noah Huffman, Dmitri Pavlichin, and Tsachy Weissman(参考訳) 古典的ハードウェア上での量子回路のシミュレーションは、量子アルゴリズムとハードウェアの開発とテスト、およびノイズ中間量子(NISQ)システムにおける量子超越性(quantum supremacy)の主張を評価するための強力で必要なツールである。 Schr\\odingerスタイルのシミュレーションは、保存する必要がある状態振幅の指数関数的な増加によって制限される。 本研究では,量子回路をシミュレートするビット数を削減するために,スカラーとベクトル量子化を損失圧縮スキームとしてschr\"odingerスタイルの量子回路シミュレーションに適用する。 量子化を用いることで、量子フーリエ変換をシミュレートする際のシミュレーションフィデリティ$>0.99$を維持し、浮動小数点数において7ビットのみを使用して各振幅の実数成分と虚数成分を特徴づける。 さらに、ベクトル量子化を用いて、所望のフィリティを達成する回路のシミュレーションにおいて状態ベクトルを格納するのに必要なビット数/振幅を束縛する手法を提案し、量子フーリエ変換の6キュービットシミュレーションの場合、15ビット/振幅はフィリティを10^4$で0.9$に維持するのに十分であることを示す。

Simulating quantum circuits on classical hardware is a powerful and necessary tool for developing and testing quantum algorithms and hardware as well as evaluating claims of quantum supremacy in the Noisy Intermediate-Scale Quantum (NISQ) regime. Schr\"odinger-style simulations are limited by the exponential growth of the number of state amplitudes which need to be stored. In this work, we apply scalar and vector quantization to Schr\"odinger-style quantum circuit simulations as lossy compression schemes to reduce the number of bits needed to simulate quantum circuits. Using quantization, we can maintain simulation fidelities $>0.99$ when simulating the Quantum Fourier Transform, while using only 7 significand bits in a floating-point number to characterize the real and imaginary components of each amplitude. Furthermore, using vector quantization, we propose a method to bound the number of bits/amplitude needed to store state vectors in a simulation of a circuit that achieves a desired fidelity, and show that for a 6 qubit simulation of the Quantum Fourier Transform, 15 bits/amplitude is sufficient to maintain fidelity $>0.9$ at $10^4$ depth.
翻訳日:2024-02-28 00:09:57 公開日:2024-02-25
# 高アフィン変換に適応した領域特徴記述子

Region Feature Descriptor Adapted to High Affine Transformations ( http://arxiv.org/abs/2402.09724v3 )

ライセンス: Link先を確認
Shaojie Zhang, Yinghui Wang, Bin Nan, Wei Li, Jinlong Yang, Tao Yan, Yukai Wang, Liangyi Huang, Mingfeng Wang, and Ibragim R. Atadjanov(参考訳) 画像が高アフィン変換を行う場合のグレースケール特徴情報の表現に効果のない特徴ディスクリプタの問題に対処するため,分類を用いてアフィン変換をシミュレートした領域特徴ディスクリプタを提案する。 提案手法は当初,異なるアフィン次数を持つ画像を分類し,アフィン変換をシミュレートし,新たな画像群を生成する。 その後、この新しい画像集合上の特徴点の近傍情報を算出する。 最後に、特徴点が属する最大安定極端領域のグレースケールヒストグラムと特徴点領域のグレイスケールセントロイドに対する正規化位置とを組み合わせて記述子を生成する。 アフィン変換のシナリオで特徴マッチングメトリクスを比較した実験の結果,提案する記述器は従来の記述器と比較して高い精度と頑健性を示すことがわかった。 さらに、他のディスクリプタと統合すると堅牢性を示す。

To address the issue of feature descriptors being ineffective in representing grayscale feature information when images undergo high affine transformations, leading to a rapid decline in feature matching accuracy, this paper proposes a region feature descriptor based on simulating affine transformations using classification. The proposed method initially categorizes images with different affine degrees to simulate affine transformations and generate a new set of images. Subsequently, it calculates neighborhood information for feature points on this new image set. Finally, the descriptor is generated by combining the grayscale histogram of the maximum stable extremal region to which the feature point belongs and the normalized position relative to the grayscale centroid of the feature point's region. Experimental results, comparing feature matching metrics under affine transformation scenarios, demonstrate that the proposed descriptor exhibits higher precision and robustness compared to existing classical descriptors. Additionally, it shows robustness when integrated with other descriptors.
翻訳日:2024-02-28 00:02:11 公開日:2024-02-25
# カプセル内視鏡画像のハイライト除去法

A Highlight Removal Method for Capsule Endoscopy Images ( http://arxiv.org/abs/2402.07083v2 )

ライセンス: Link先を確認
Shaojie Zhang, Yinghui Wang, Peixuan Liu, Wei Li, Jinlong Yang, Tao Yan, Yukai Wang, Liangyi Huang, Mingfeng Wang, and Ibragim R. Atadjanov(参考訳) Wireless Capsule Endoscopy (WCE)によって撮影された画像は、常に特異な反射を示し、領域の色とテクスチャを保ちながらハイライトを除去する。 そこで本稿では,カプセル内視鏡画像のハイライト除去法を提案する。 まず、ハイライト領域のエッジの信頼度と特徴項を算出し、ハイライト領域のエッジ画素を中心とするウィンドウ内のRGB空間のRチャネルにおける既知の画素とBチャネルとの比率で信頼度を求め、ハイライト領域のエッジ画素の勾配ベクトルを等強度線に乗じて特徴項を得る。 その後、信頼度と特徴項を異なる重みと和で割り当て、すべてのハイライト領域のエッジ画素の優先度を取得し、優先度の高い画素を特定する。 そして、ハイライト領域のエッジ画素のばらつきを利用してサンプルブロックウィンドウのサイズを調整し、最良マッチングブロックをrgb色類似度と、画素中心のサンプルブロックとウィンドウの距離とに基づいて、最も優先度の高い既知の領域で検索する。 そして、最良マッチングブロック内の画素を最も優先度の高いハイライト除去領域にコピーし、ハイライト領域の除去を目標とする。 実験により,提案手法は,Crinimisi法やDeepGin法と比較して,ハイライト除去領域の変動係数が低いWCE画像からハイライトを効果的に除去することを示した。 また、ハイライト除去領域の色やテクスチャは周囲のものと類似しており、テクスチャは連続している。

The images captured by Wireless Capsule Endoscopy (WCE) always exhibit specular reflections, and removing highlights while preserving the color and texture in the region remains a challenge. To address this issue, this paper proposes a highlight removal method for capsule endoscopy images. Firstly, the confidence and feature terms of the highlight region's edges are computed, where confidence is obtained by the ratio of known pixels in the RGB space's R channel to the B channel within a window centered on the highlight region's edge pixel, and feature terms are acquired by multiplying the gradient vector of the highlight region's edge pixel with the iso-intensity line. Subsequently, the confidence and feature terms are assigned different weights and summed to obtain the priority of all highlight region's edge pixels, and the pixel with the highest priority is identified. Then, the variance of the highlight region's edge pixels is used to adjust the size of the sample block window, and the best-matching block is searched in the known region based on the RGB color similarity and distance between the sample block and the window centered on the pixel with the highest priority. Finally, the pixels in the best-matching block are copied to the highest priority highlight removal region to achieve the goal of removing the highlight region. Experimental results demonstrate that the proposed method effectively removes highlights from WCE images, with a lower coefficient of variation in the highlight removal region compared to the Crinimisi algorithm and DeepGin method. Additionally, the color and texture in the highlight removal region are similar to those in the surrounding areas, and the texture is continuous.
翻訳日:2024-02-28 00:01:02 公開日:2024-02-25
# SIR:室内シーンのシャドーを分解可能なマルチビュー逆レンダリング

SIR: Multi-view Inverse Rendering with Decomposable Shadow for Indoor Scenes ( http://arxiv.org/abs/2402.06136v2 )

ライセンス: Link先を確認
Xiaokang Wei, Zhuoman Liu, Yan Luximon(参考訳) SIRは,多視点データを用いた屋内シーンの逆レンダリングにおいて,素材や照明条件を正確に分解する上での課題に対処するため,効率よく異種影を分解する手法である。 複雑な照明環境における影の忠実さに苦しむ従来の手法とは異なり、我々の手法は未知の光位置下での物質推定における現実性向上のための影を明示的に学習する。 提案したHDR画像を入力として利用し、SIRは総合的なシーン表現のためにSDFベースのニューラル放射場を使用する。 次に,SIRは影項と3段階の物質推定手法を統合し,SVBRDFの品質を向上する。 具体的には、BRDF正規化によって補完される微分可能な影を学習し、逆レンダリング精度を最適化する。 室内の合成シーンと実空間の両方での大規模な実験は、定量測定と定性解析の両方において既存の手法よりも優れたSIR性能を示す。 SIRの大幅な分解能力は、フリービューのリライト、オブジェクト挿入、材料置換といった高度な編集機能を実現する。 コードとデータはhttps://xiaokangwei.github.io/SIR/で公開されている。

We propose SIR, an efficient method to decompose differentiable shadows for inverse rendering on indoor scenes using multi-view data, addressing the challenges in accurately decomposing the materials and lighting conditions. Unlike previous methods that struggle with shadow fidelity in complex lighting environments, our approach explicitly learns shadows for enhanced realism in material estimation under unknown light positions. Utilizing posed HDR images as input, SIR employs an SDF-based neural radiance field for comprehensive scene representation. Then, SIR integrates a shadow term with a three-stage material estimation approach to improve SVBRDF quality. Specifically, SIR is designed to learn a differentiable shadow, complemented by BRDF regularization, to optimize inverse rendering accuracy. Extensive experiments on both synthetic and real-world indoor scenes demonstrate the superior performance of SIR over existing methods in both quantitative metrics and qualitative analysis. The significant decomposing ability of SIR enables sophisticated editing capabilities like free-view relighting, object insertion, and material replacement. The code and data are available at https://xiaokangwei.github.io/SIR/.
翻訳日:2024-02-28 00:00:33 公開日:2024-02-25
# 状態空間バックボーンを持つスケーラブル拡散モデル

Scalable Diffusion Models with State Space Backbone ( http://arxiv.org/abs/2402.05608v2 )

ライセンス: Link先を確認
Zhengcong Fei, Mingyuan Fan, Changqian Yu, Junshi Huang(参考訳) 本稿では,状態空間アーキテクチャ上に構築された拡散モデルのカテゴリを新たに探究する。 従来のU-Netバックボーンは、状態空間のバックボーンに取って代わられ、生のパッチや潜伏空間で機能する。 Diffusion State Space Models (DiS) は、長距離依存の調節における顕著な有効性から、時間、条件、ノイズの多い画像パッチを含む全ての入力をトークンとして扱うことで区別される。 我々の評価では,非条件画像生成シナリオとクラス条件画像生成シナリオの両方を包含し,DiSがCNNベースやTransformerベースのコンメンシュレートサイズのU-Netアーキテクチャに匹敵する性能を示した。 さらに、Gflopsで定量化されるフォワードパス複雑性によって測定されたDiSのスケーラビリティを解析する。 入力トークンの深さ/幅の増大や増大によって達成される高いGflopsを持つDiSモデルは、一貫して低いFIDを示す。 遅延空間におけるDIS-H/2モデルは、圧縮可能なスケーラビリティ特性を示すことに加えて、256$\times$256および512$\times$512の解像度で、クラス条件のImageNetベンチマークの事前拡散モデルと同様のパフォーマンスレベルを達成する。 コードとモデルは以下の通りである。

This paper presents a new exploration into a category of diffusion models built upon state space architecture. We endeavor to train diffusion models for image data, wherein the traditional U-Net backbone is supplanted by a state space backbone, functioning on raw patches or latent space. Given its notable efficacy in accommodating long-range dependencies, Diffusion State Space Models (DiS) are distinguished by treating all inputs including time, condition, and noisy image patches as tokens. Our assessment of DiS encompasses both unconditional and class-conditional image generation scenarios, revealing that DiS exhibits comparable, if not superior, performance to CNN-based or Transformer-based U-Net architectures of commensurate size. Furthermore, we analyze the scalability of DiS, gauged by the forward pass complexity quantified in Gflops. DiS models with higher Gflops, achieved through augmentation of depth/width or augmentation of input tokens, consistently demonstrate lower FID. In addition to demonstrating commendable scalability characteristics, DiS-H/2 models in latent space achieve performance levels akin to prior diffusion models on class-conditional ImageNet benchmarks at the resolution of 256$\times$256 and 512$\times$512, while significantly reducing the computational burden. The code and models are available at: https://github.com/feizc/DiS.
翻訳日:2024-02-28 00:00:14 公開日:2024-02-25
# uehlingポテンシャルの微分方程式

Differential equation for the Uehling potential ( http://arxiv.org/abs/2402.03360v4 )

ライセンス: Link先を確認
Alexei M. Frolov(参考訳) uehlingポテンシャルの2階微分方程式は明示的に導出される。 この微分方程式の右辺は、2つのマクドナルド函数の線型結合で、$K_{0}(b r)$と$K_{1}(b r)$である。 この中心ポテンシャルは、数電子および多電子原子、イオン、ムロン原子、バイムロン原子/イオンおよび他の類似系における真空分極の最低次補正を記述するため、多くのqed問題に大きな関心を寄せている。

The second-order differential equation for the Uehling potential is derived explicitly. The right side of this differential equation is a linear combination of the two Macdonald's functions $K_{0}(b r)$ and $K_{1}(b r)$. This central potential is of great interest in many QED problems, since it describes the lowest-order correction for vacuum polarization in few- and many-electron atoms, ions, muonic and bi-muonic atoms/ions as well as in other similar systems.
翻訳日:2024-02-27 23:58:46 公開日:2024-02-25
# 画像とテキストによるマルチモーダル大言語モデルの安全性

Safety of Multimodal Large Language Models on Images and Text ( http://arxiv.org/abs/2402.00357v2 )

ライセンス: Link先を確認
Xin Liu, Yichen Zhu, Yunshi Lan, Chao Yang, Yu Qiao(参考訳) MLLM(Multimodal Large Language Models)の印象的なパワーに魅了され、日々の作業の効率を改善するために、その活用がますます進んでいる。 それでも、安全でない命令に対するmllmの脆弱性は、これらのモデルが現実世界のシナリオにデプロイされると、大きな安全性リスクをもたらす。 本稿では,MLLMの安全性の評価,攻撃,防衛に関する現在の取り組みを,画像やテキスト上で体系的に調査する。 まず、画像とテキストに関するMLLMの概要と安全性の理解から始め、研究者が調査の詳細な範囲を知るのに役立ちます。 次に,MLLMの安全性を評価するための評価データセットと指標について検討する。 次に,MLLMの安全性に関する攻撃・防御技術について概説する。 最後に,未解決問題を分析し,今後の研究方針について考察する。 最新の論文はhttps://github.com/isXinLiu/MLLM-Safety-Collectionで継続的に収集されている。

Attracted by the impressive power of Multimodal Large Language Models (MLLMs), the public is increasingly utilizing them to improve the efficiency of daily work. Nonetheless, the vulnerabilities of MLLMs to unsafe instructions bring huge safety risks when these models are deployed in real-world scenarios. In this paper, we systematically survey current efforts on the evaluation, attack, and defense of MLLMs' safety on images and text. We begin with introducing the overview of MLLMs on images and text and understanding of safety, which helps researchers know the detailed scope of our survey. Then, we review the evaluation datasets and metrics for measuring the safety of MLLMs. Next, we comprehensively present attack and defense techniques related to MLLMs' safety. Finally, we analyze several unsolved issues and discuss promising research directions. The latest papers are continually collected at https://github.com/isXinLiu/MLLM-Safety-Collection.
翻訳日:2024-02-27 23:57:57 公開日:2024-02-25
# マルチレベルリファインメント戦略に基づく特徴マッチング手法

A Feature Matching Method Based on Multi-Level Refinement Strategy ( http://arxiv.org/abs/2402.13488v2 )

ライセンス: Link先を確認
Shaojie Zhang, Yinghui Wang, Jiaxing Ma, Wei Li, Jinlong Yang, Tao Yan, Yukai Wang, Liangyi Huang, Mingfeng Wang, and Ibragim R. Atadjanov(参考訳) 機能マッチングはvisual slamの基本的かつ重要なプロセスであり、精度は常に機能マッチングの課題であった。 本稿では,マルチレベルファインマッチング戦略に基づき,ktgp-orbと呼ばれる新しい特徴マッチング手法を提案する。 特徴記述子によって生成されるハミング空間における局所的外観の類似性を利用して初期対応を確立する。 局所像運動の滑らかさの制約を組み合わせ、GMSアルゴリズムを用いて初期一致の精度を向上し、最後に、ユークリッド空間におけるグローバルグレースケール情報に基づく正確なマッチングを達成するために PROSAC アルゴリズムを用いる。 実験により、KTGP-ORB法は、照明のバリエーションと曖昧さのある複雑なシーンにおいて、ORBアルゴリズムと比較して誤差を平均29.92%削減することを示した。

Feature matching is a fundamental and crucial process in visual SLAM, and precision has always been a challenging issue in feature matching. In this paper, based on a multi-level fine matching strategy, we propose a new feature matching method called KTGP-ORB. This method utilizes the similarity of local appearance in the Hamming space generated by feature descriptors to establish initial correspondences. It combines the constraint of local image motion smoothness, uses the GMS algorithm to enhance the accuracy of initial matches, and finally employs the PROSAC algorithm to optimize matches, achieving precise matching based on global grayscale information in Euclidean space. Experimental results demonstrate that the KTGP-ORB method reduces the error by an average of 29.92% compared to the ORB algorithm in complex scenes with illumination variations and blur.
翻訳日:2024-02-27 23:51:55 公開日:2024-02-25
# 階層的ベイズアプローチによる教師なし学習の個人化

Hierarchical Bayes Approach to Personalized Federated Unsupervised Learning ( http://arxiv.org/abs/2402.12537v2 )

ライセンス: Link先を確認
Kaan Ozkara, Bruce Huang, Ruida Zhou, Suhas Diggavi(参考訳) クライアントのローカルデータの統計的不均一性は、ローカルデータ統計に合わせたパーソナライズされたアルゴリズムを動機付け、フェデレーション学習において重要な特徴である。 パーソナライズされた教師なし学習には多数のアルゴリズムが提案されているが、パーソナライズされた教師なし学習によるローカルデータの構造の発見は少ない。 階層的ベイズ統計枠組みに触発された最適化基準に基づくアルゴリズムの開発により,このようなパーソナライズされた教師なし学習を体系的に研究する。 限られたローカルデータと協調情報とのバランスを検出する適応アルゴリズムを開発した。 私たちは、教師なしの2つの学習タスクの文脈でこれを行う: 個人化された次元の削減とパーソナライズされた拡散モデル。 問題パラメータ(例えば、異種性、局所サンプルサイズ)への依存性を説明する適応アルゴリズムの収束解析法を開発した。 また,均質性の下でも協調の利点を示す,個人化拡散モデルのための理論的枠組みを構築した。 最後に,提案手法を合成および実データを用いて評価し,データの不均一性に拘わらず,協調によって引き起こされるパーソナライズタスクの効果的なサンプル増幅を示す。

Statistical heterogeneity of clients' local data is an important characteristic in federated learning, motivating personalized algorithms tailored to the local data statistics. Though there has been a plethora of algorithms proposed for personalized supervised learning, discovering the structure of local data through personalized unsupervised learning is less explored. We initiate a systematic study of such personalized unsupervised learning by developing algorithms based on optimization criteria inspired by a hierarchical Bayesian statistical framework. We develop adaptive algorithms that discover the balance between using limited local data and collaborative information. We do this in the context of two unsupervised learning tasks: personalized dimensionality reduction and personalized diffusion models. We develop convergence analyses for our adaptive algorithms which illustrate the dependence on problem parameters (e.g., heterogeneity, local sample size). We also develop a theoretical framework for personalized diffusion models, which shows the benefits of collaboration even under heterogeneity. We finally evaluate our proposed algorithms using synthetic and real data, demonstrating the effective sample amplification for personalized tasks, induced through collaboration, despite data heterogeneity.
翻訳日:2024-02-27 23:51:23 公開日:2024-02-25
# DriveVLM: 自律走行と大規模ビジョンランゲージモデルの収束性

DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models ( http://arxiv.org/abs/2402.12289v2 )

ライセンス: Link先を確認
Xiaoyu Tian, Junru Gu, Bailin Li, Yicheng Liu, Chenxu Hu, Yang Wang, Kun Zhan, Peng Jia, Xianpeng Lang, Hang Zhao(参考訳) 都市環境における自律運転の主なハードルは、困難な道路条件や繊細な人間の行動など、複雑で長い尾のシナリオを理解することである。 本稿では,視覚言語モデル(VLM)を活用した自律走行システムであるDriveVLMを紹介した。 DriveVLMは、シーン記述、シーン分析、階層計画のためのチェーン・オブ・シント(CoT)モジュールのユニークな組み合わせを統合している。 さらに,空間的推論におけるVLMの限界を認識し,従来の自律走行パイプラインとDriveVLMの強度を相乗化するハイブリッドシステムであるDriveVLM-Dualを提案する。 DriveVLM-Dualは、堅牢な空間理解とリアルタイム推論速度を実現する。 nuScenesデータセットとSUP-ADデータセットの併用実験により,DriveVLMの有効性とDriveVLM-Dualの性能向上が実証された。

A primary hurdle of autonomous driving in urban environments is understanding complex and long-tail scenarios, such as challenging road conditions and delicate human behaviors. We introduce DriveVLM, an autonomous driving system leveraging Vision-Language Models (VLMs) for enhanced scene understanding and planning capabilities. DriveVLM integrates a unique combination of chain-of-thought (CoT) modules for scene description, scene analysis, and hierarchical planning. Furthermore, recognizing the limitations of VLMs in spatial reasoning and heavy computational requirements, we propose DriveVLM-Dual, a hybrid system that synergizes the strengths of DriveVLM with the traditional autonomous driving pipeline. DriveVLM-Dual achieves robust spatial understanding and real-time inference speed. Extensive experiments on both the nuScenes dataset and our SUP-AD dataset demonstrate the effectiveness of DriveVLM and the enhanced performance of DriveVLM-Dual, surpassing existing methods in complex and unpredictable driving conditions.
翻訳日:2024-02-27 23:51:04 公開日:2024-02-25
# 過パラメータネットワークのトレーニングと一般化におけるLeaky ReLUsの効果

The effect of Leaky ReLUs on the training and generalization of overparameterized networks ( http://arxiv.org/abs/2402.11942v3 )

ライセンス: Link先を確認
Yinglong Guo, Shaohan Li, Gilad Lerman(参考訳) 本稿では,オーバーパラメータ付きニューラルネットワーク(nns)の学習と一般化誤差について,リーク正規化線形単位(relu)関数を用いた検討を行う。 具体的には、トレーニングエラーの収束率とこれらのNNの一般化誤差の両方を慎重に上限付けし、Leaky ReLU パラメータ $\alpha$ に対するこれらの境界の依存性を調べる。 絶対値活性化関数に対応する$\alpha =-1$は、トレーニングエラー境界に対して最適であることを示す。 さらに、特別な設定では、一般化誤差境界にも最適である。 数値実験は、理論によって導かれる実践的な選択を実証的に支持する。

We investigate the training and generalization errors of overparameterized neural networks (NNs) with a wide class of leaky rectified linear unit (ReLU) functions. More specifically, we carefully upper bound both the convergence rate of the training error and the generalization error of such NNs and investigate the dependence of these bounds on the Leaky ReLU parameter, $\alpha$. We show that $\alpha =-1$, which corresponds to the absolute value activation function, is optimal for the training error bound. Furthermore, in special settings, it is also optimal for the generalization error bound. Numerical experiments empirically support the practical choices guided by the theory.
翻訳日:2024-02-27 23:50:49 公開日:2024-02-25
# 3次元再構成のためのロバストなエラー耐性ビュー選択法

A Robust Error-Resistant View Selection Method for 3D Reconstruction ( http://arxiv.org/abs/2402.11431v2 )

ライセンス: Link先を確認
Shaojie Zhang, Yinghui Wang, Bin Nan, Wei Li, Jinlong Yang, Tao Yan, Yukai Wang, Liangyi Huang, Mingfeng Wang, and Ibragim R. Atadjanov(参考訳) 本研究では,SFM(Structure from Motion)ビュー選択におけるカメラベースラインの小さいビューの選択による三角測量の不確実性の増加に対処するため,ロバストなエラー耐性ビュー選択法を提案する。 この手法は三角法に基づく計算を用いて誤り耐性モデルを求め、エラー耐性行列を構築するのに使用される。 エラー耐性行列の各行のソート結果は、各ビューの候補ビューセットを決定する。 全ビューの候補ビューセットをトラバースし、エラー耐性行列に基づいて欠落ビューを完遂することにより、3D再構成の整合性を確保する。 本手法とcolmapプログラムにおいて最も精度の高い排他的手法との実験的比較を行い, 復元結果における平均再投影誤差と絶対軌道誤差について検討した。 提案手法は,TUMデータセットとDTUデータセットの絶対軌道誤差の平均29.40%,および5.07%の減少を示す。

To address the issue of increased triangulation uncertainty caused by selecting views with small camera baselines in Structure from Motion (SFM) view selection, this paper proposes a robust error-resistant view selection method. The method utilizes a triangulation-based computation to obtain an error-resistant model, which is then used to construct an error-resistant matrix. The sorting results of each row in the error-resistant matrix determine the candidate view set for each view. By traversing the candidate view sets of all views and completing the missing views based on the error-resistant matrix, the integrity of 3D reconstruction is ensured. Experimental comparisons between this method and the exhaustive method with the highest accuracy in the COLMAP program are conducted in terms of average reprojection error and absolute trajectory error in the reconstruction results. The proposed method demonstrates an average reduction of 29.40% in reprojection error accuracy and 5.07% in absolute trajectory error on the TUM dataset and DTU dataset.
翻訳日:2024-02-27 23:49:46 公開日:2024-02-25
# ddpmインバージョンを用いたゼロショット教師なし音声編集

Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion ( http://arxiv.org/abs/2402.10009v3 )

ライセンス: Link先を確認
Hila Manor and Tomer Michaeli(参考訳) 大規模な事前学習モデルを用いて、ゼロショットで信号を編集する手法は、最近画像領域で急速に進歩している。 しかし、この波はまだオーディオ領域に届いていない。 本稿では,事前学習した拡散モデルにおけるDDPMインバージョンを用いた2つのゼロショット音声信号編集手法について検討する。 画像ドメインから採用された最初のものは、テキストベースの編集を可能にする。 2つ目は、意味的に意味のある編集方向を監督せずに発見するための新しいアプローチである。 音楽信号に適用すると、特定の楽器の参加の制御からメロディの即興演奏まで、音楽的に興味深い変更が多岐にわたることが分かる。 サンプルとコードは例のページ(https://hilamanor.github.io/AudioEditing/)にある。

Editing signals using large pre-trained models, in a zero-shot manner, has recently seen rapid advancements in the image domain. However, this wave has yet to reach the audio domain. In this paper, we explore two zero-shot editing techniques for audio signals, which use DDPM inversion on pre-trained diffusion models. The first, adopted from the image domain, allows text-based editing. The second, is a novel approach for discovering semantically meaningful editing directions without supervision. When applied to music signals, this method exposes a range of musically interesting modifications, from controlling the participation of specific instruments to improvisations on the melody. Samples and code can be found on our examples page in https://hilamanor.github.io/AudioEditing/ .
翻訳日:2024-02-27 23:48:22 公開日:2024-02-25
# なぜトランスフォーマーに敏感な機能が難しいのか?

Why are Sensitive Functions Hard for Transformers? ( http://arxiv.org/abs/2402.09963v2 )

ライセンス: Link先を確認
Michael Hahn, Mark Rofin(参考訳) 実証的研究は、PARITYのような単純な形式言語を計算することの難しさや、低次関数に対するバイアスなど、トランスフォーマーの学習可能性バイアスと制限の幅を特定している。 しかし、理論的な理解は限られており、既存の表現力理論は現実的な学習能力を過大に予測または過小に予測している。 入力文字列の多くの部分に敏感な出力を持つトランスは、パラメータ空間内の孤立した点に存在し、一般化において低感度のバイアスをもたらす。 本研究では, この理論が, 低感度・低度への一般化バイアス, PARITYにおける長さ一般化の難しさなど, 変圧器の学習能力とバイアスに関する幅広い経験的観察を統一することを示す。 これは、トランスフォーマーの帰納的バイアスを理解するには、原理的な表現性だけでなく、損失の風景も研究する必要があることを示している。

Empirical studies have identified a range of learnability biases and limitations of transformers, such as a persistent difficulty in learning to compute simple formal languages such as PARITY, and a bias towards low-degree functions. However, theoretical understanding remains limited, with existing expressiveness theory either overpredicting or underpredicting realistic learning abilities. We prove that, under the transformer architecture, the loss landscape is constrained by the input-space sensitivity: Transformers whose output is sensitive to many parts of the input string inhabit isolated points in parameter space, leading to a low-sensitivity bias in generalization. We show theoretically and empirically that this theory unifies a broad array of empirical observations about the learning abilities and biases of transformers, such as their generalization bias towards low sensitivity and low degree, and difficulty in length generalization for PARITY. This shows that understanding transformers' inductive biases requires studying not just their in-principle expressivity, but also their loss landscape.
翻訳日:2024-02-27 23:48:09 公開日:2024-02-25
# Xformer:画像デノーミング用ハイブリッドX字型トランス

Xformer: Hybrid X-Shaped Transformer for Image Denoising ( http://arxiv.org/abs/2303.06440v2 )

ライセンス: Link先を確認
Jiale Zhang and Yulun Zhang and Jinjin Gu and Jiahua Dong and Linghe Kong and Xiaokang Yang(参考訳) 本稿では,Xformerと呼ばれるハイブリッドX字型視覚変換器について述べる。 異なるスコープからトークンのグローバル表現を強化することを検討する。 詳しくは、Transformerブロックのタイプを2つ採用する。 空間ワイドトランスフォーマーブロックは、空間次元で定義されたトークン間のきめ細かい局所パッチ相互作用を実行する。 チャネルワイドトランスフォーマーブロックは、チャネル次元で定義されたトークン間で直接グローバルなコンテキストインタラクションを実行する。 並列ネットワーク構造に基づき,これら2つの相互作用パターンを実行するために2つのブランチを設計した。 各ブランチ内では,エンコーダ・デコーダアーキテクチャを用いてマルチスケール機能をキャプチャする。 さらに,この2つのブランチから学習した表現を結合し,情報融合を増強した双方向接続ユニット(BCU)を提案する。 共同設計により、Xformerは空間次元とチャネル次元の両方でグローバルな情報モデリングを行うことができる。 大規模な実験により、Xformerはモデル複雑さに匹敵する条件下で、合成および実世界の画像デノゲーションタスクにおける最先端のパフォーマンスを達成することが示された。 また、https://github.com/gladzhang/xformer.orgでコードとモデルを提供しています。

In this paper, we present a hybrid X-shaped vision Transformer, named Xformer, which performs notably on image denoising tasks. We explore strengthening the global representation of tokens from different scopes. In detail, we adopt two types of Transformer blocks. The spatial-wise Transformer block performs fine-grained local patches interactions across tokens defined by spatial dimension. The channel-wise Transformer block performs direct global context interactions across tokens defined by channel dimension. Based on the concurrent network structure, we design two branches to conduct these two interaction fashions. Within each branch, we employ an encoder-decoder architecture to capture multi-scale features. Besides, we propose the Bidirectional Connection Unit (BCU) to couple the learned representations from these two branches while providing enhanced information fusion. The joint designs make our Xformer powerful to conduct global information modeling in both spatial and channel dimensions. Extensive experiments show that Xformer, under the comparable model complexity, achieves state-of-the-art performance on the synthetic and real-world image denoising tasks. We also provide code and models at https://github.com/gladzhang/Xformer.
翻訳日:2024-02-27 22:00:33 公開日:2024-02-25
# Beyond SOT: 複数のジェネリックオブジェクトを一度に追跡する

Beyond SOT: Tracking Multiple Generic Objects at Once ( http://arxiv.org/abs/2212.11920v3 )

ライセンス: Link先を確認
Christoph Mayer and Martin Danelljan and Ming-Hsuan Yang and Vittorio Ferrari and Luc Van Gool and Alina Kuznetsova(参考訳) 汎用オブジェクトトラッキング(got)は、ビデオの最初のフレームのバウンディングボックスによって特定される対象オブジェクトを追跡する問題である。 このタスクは過去数十年で大きな注目を集めてきたが、研究者はほとんどが単一のオブジェクトの設定に集中している。 マルチオブジェクトは、より広い適用性から恩恵を受け、現実世界のアプリケーションでより魅力的になる。 この問題に対する研究の関心の欠如は、適切なベンチマークがないためである。 本研究では,複数のアノテート対象オブジェクトをシーケンス毎に含む大規模GOTベンチマークLaGOTを提案する。 本ベンチマークでは,複数オブジェクトの同時追跡によるロバスト性の向上と計算量の削減を目標として,GOTにおける重要な課題に取り組むことができる。 さらに,共有計算により複数のオブジェクトを共同処理できるトランスフォーマーベースのGOTトラッカーベースラインを提案する。 私たちのアプローチは、各オブジェクトを独立して追跡し、新しいベンチマークで既存の単一のオブジェクトトラッカよりも4倍高速に実行できます。 さらに,本手法は単一オブジェクトのGOTデータセットに対して高い競合性を実現し,TrackingNet上での新たな技術状態が84.4%の成功率で設定されている。 私たちのベンチマーク、コード、トレーニングされたモデルが公開される予定だ。

Generic Object Tracking (GOT) is the problem of tracking target objects, specified by bounding boxes in the first frame of a video. While the task has received much attention in the last decades, researchers have almost exclusively focused on the single object setting. Multi-object GOT benefits from a wider applicability, rendering it more attractive in real-world applications. We attribute the lack of research interest into this problem to the absence of suitable benchmarks. In this work, we introduce a new large-scale GOT benchmark, LaGOT, containing multiple annotated target objects per sequence. Our benchmark allows users to tackle key remaining challenges in GOT, aiming to increase robustness and reduce computation through joint tracking of multiple objects simultaneously. In addition, we propose a transformer-based GOT tracker baseline capable of joint processing of multiple objects through shared computation. Our approach achieves a 4x faster run-time in case of 10 concurrent objects compared to tracking each object independently and outperforms existing single object trackers on our new benchmark. In addition, our approach achieves highly competitive results on single-object GOT datasets, setting a new state of the art on TrackingNet with a success rate AUC of 84.4%. Our benchmark, code, and trained models will be made publicly available.
翻訳日:2024-02-27 21:59:42 公開日:2024-02-25
# 中国語綴りチェックにおけるエラーロバスト検索

Error-Robust Retrieval for Chinese Spelling Check ( http://arxiv.org/abs/2211.07843v2 )

ライセンス: Link先を確認
Xunjian Yin and Xinyu Hu and Jin Jiang and Xiaojun Wan(参考訳) Chinese Spelling Check (CSC)は、幅広い用途を持つ中国のコンテキストにおけるエラートークンの検出と修正を目的としている。 しかし、注釈付きデータの不足や、以前の方法が既存のデータセットを完全に活用できないという問題に直面している。 本稿では,既存のCSCモデルに直接適用可能な中国語スペルチェック(RERIC)の誤検出情報を用いたプラグアンドプレイ検索手法を提案する。 検索用データストアは完全にトレーニングデータに基づいて構築されており、CSCの特性に応じて精巧な設計がされている。 具体的には,検索中のクエリとキーの計算において,音声的,形態的,文脈的情報を融合するマルチモーダル表現を用いて,潜在的なエラーに対する頑健性を高める。 さらに、検索された候補をよりよく判断するために、チェック対象のトークンを囲むn-gramが値と見なされ、特定の再ランク付けに利用される。 SIGHANベンチマーク実験の結果,提案手法は既存の作業よりも大幅に改善されていることが示された。

Chinese Spelling Check (CSC) aims to detect and correct error tokens in Chinese contexts, which has a wide range of applications. However, it is confronted with the challenges of insufficient annotated data and the issue that previous methods may actually not fully leverage the existing datasets. In this paper, we introduce our plug-and-play retrieval method with error-robust information for Chinese Spelling Check (RERIC), which can be directly applied to existing CSC models. The datastore for retrieval is built completely based on the training data, with elaborate designs according to the characteristics of CSC. Specifically, we employ multimodal representations that fuse phonetic, morphologic, and contextual information in the calculation of query and key during retrieval to enhance robustness against potential errors. Furthermore, in order to better judge the retrieved candidates, the n-gram surrounding the token to be checked is regarded as the value and utilized for specific reranking. The experiment results on the SIGHAN benchmarks demonstrate that our proposed method achieves substantial improvements over existing work.
翻訳日:2024-02-27 21:59:20 公開日:2024-02-25
# AI規制のクローズド・ループビュー:繰り返しインタラクション間の平等な影響

Closed-Loop View of the Regulation of AI: Equal Impact across Repeated Interactions ( http://arxiv.org/abs/2209.01410v2 )

ライセンス: Link先を確認
Quan Zhou and Ramen Ghosh and Robert Shorten and Jakub Marecek(参考訳) 近年、AIの規制に対する関心が高まっている。 我々は、平等な待遇と平等な影響の概念に基づく民権法に基づく見解を議論する。 AIシステムとそのユーザのクローズドループビューでは、同等の処理がループを通過する。 平等な影響は、我々の見解では、反復的な相互作用における平均的な長期的行動に関係している。 平均とその性質の存在を確立するためには、閉ループのエルゴード的性質とそのユニークな定常測度を研究する必要がある。

There has been much recent interest in the regulation of AI. We argue for a view based on civil-rights legislation, built on the notions of equal treatment and equal impact. In a closed-loop view of the AI system and its users, the equal treatment concerns one pass through the loop. Equal impact, in our view, concerns the long-run average behaviour across repeated interactions. In order to establish the existence of the average and its properties, one needs to study the ergodic properties of the closed-loop and its unique stationary measure.
翻訳日:2024-02-27 21:59:03 公開日:2024-02-25
# 航空視測位のためのマルチ環境自己適応ネットワーク

Multiple-environment Self-adaptive Network for Aerial-view Geo-localization ( http://arxiv.org/abs/2204.08381v2 )

ライセンス: Link先を確認
Tingyu Wang, Zhedong Zheng, Yaoqi Sun, Chenggang Yan, Yi Yang, and Tat-Seng Chua(参考訳) 航空ビューのジオローカライゼーションは、ドローンビュー画像とジオタグの衛星ビュー画像とをマッチングすることにより、未知の位置を決定する傾向がある。 このタスクは、主に画像検索問題と見なされている。 このタスクの鍵となるのは、識別的画像記述子を学ぶために一連のディープニューラルネットワークを設計することである。 しかし,既存の手法は,訓練データと複数のテスト環境の領域シフトを考慮していないため,雨や霧などの現実的な天候下での大きな性能低下に対応する。 このドメインギャップを小さくするために,環境変化によるドメインシフトを動的に調整するマルチ環境自己適応ネットワーク(muse-net)を提案する。 特に、MuSe-Netは、1つの多重環境スタイル抽出ネットワークと1つの自己適応的特徴抽出ネットワークを含む2分岐ニューラルネットワークを使用している。 名前が示すように、マルチ環境スタイル抽出ネットワークは環境関連スタイル情報を抽出し、自己適応型特徴抽出ネットワークは適応変調モジュールを用いて環境関連スタイルギャップを動的に最小化する。 広く使われている2つのベンチマーク、すなわちUniversity-1652とCVUSAの広範な実験は、提案された MuSe-Net が複数の環境における地理的局所化の競合的な結果をもたらすことを示した。 また,提案手法は,霧,雨,雪を混合するなど,目に見えない極端な気象にも大きな可能性があることを観測した。

Aerial-view geo-localization tends to determine an unknown position through matching the drone-view image with the geo-tagged satellite-view image. This task is mostly regarded as an image retrieval problem. The key underpinning this task is to design a series of deep neural networks to learn discriminative image descriptors. However, existing methods meet large performance drops under realistic weather, such as rain and fog, since they do not take the domain shift between the training data and multiple test environments into consideration. To minor this domain gap, we propose a Multiple-environment Self-adaptive Network (MuSe-Net) to dynamically adjust the domain shift caused by environmental changing. In particular, MuSe-Net employs a two-branch neural network containing one multiple-environment style extraction network and one self-adaptive feature extraction network. As the name implies, the multiple-environment style extraction network is to extract the environment-related style information, while the self-adaptive feature extraction network utilizes an adaptive modulation module to dynamically minimize the environment-related style gap. Extensive experiments on two widely-used benchmarks, i.e., University-1652 and CVUSA, demonstrate that the proposed MuSe-Net achieves a competitive result for geo-localization in multiple environments. Furthermore, we observe that the proposed method also shows great potential to the unseen extreme weather, such as mixing the fog, rain and snow.
翻訳日:2024-02-27 21:58:54 公開日:2024-02-25
# パーセプタリー・グラウンドド・スタイル・トランスファー・ラーニングによる古代花瓶絵画におけるポーズ推定の強化

Enhancing Human Pose Estimation in Ancient Vase Paintings via Perceptually-grounded Style Transfer Learning ( http://arxiv.org/abs/2012.05616v2 )

ライセンス: Link先を確認
Prathmesh Madhu, Angel Villar-Corrales, Ronak Kosti, Torsten Bendschus, Corinna Reinhardt, Peter Bell, Andreas Maier, Vincent Christlein(参考訳) 人間のポーズ推定(HPE)は、ギリシアの花瓶絵などの絵画コレクションに描かれている人物の視覚的ナレーションと身体の動きを理解する中心的な部分である。 残念ながら、既存のHPE法はドメインをまたいでうまく一般化しないため、認識されていないポーズが生じる。 そこで本研究では,(1) 既知の人物の自然像のデータセットを適応させ, 画像スタイル変換によるギリシアの花瓶絵画の様式にアノテーションを付加する2つのアプローチを提案する。 知覚的一貫性を強制するために,知覚的接地型トランスファートレーニングを導入する。 そして、この新しく作成されたデータセットでベースモデルを微調整します。 スタイル変換学習を用いることで,平均精度(mAP)が6%以上,平均リコール(mAR)が6%以上向上することがわかった。 2) より強固な結果を改善するため,紀元前6~5世紀の古代ギリシアの花瓶絵と注釈を添えた小さなデータセット(ClassArch)を作成した。 このデータに対するスタイル変換モデルによる微調整により、パフォーマンスがさらに向上することを示す。 徹底的なアブレーション研究では,スタイル強度の影響を対象とした解析を行い,モデルが汎用的なドメインスタイルを学習していることを明らかにする。 さらに,提案手法の有効性を示すために,ポーズに基づく画像検索を行う。

Human pose estimation (HPE) is a central part of understanding the visual narration and body movements of characters depicted in artwork collections, such as Greek vase paintings. Unfortunately, existing HPE methods do not generalise well across domains resulting in poorly recognized poses. Therefore, we propose a two step approach: (1) adapting a dataset of natural images of known person and pose annotations to the style of Greek vase paintings by means of image style-transfer. We introduce a perceptually-grounded style transfer training to enforce perceptual consistency. Then, we fine-tune the base model with this newly created dataset. We show that using style-transfer learning significantly improves the SOTA performance on unlabelled data by more than 6% mean average precision (mAP) as well as mean average recall (mAR). (2) To improve the already strong results further, we created a small dataset (ClassArch) consisting of ancient Greek vase paintings from the 6-5th century BCE with person and pose annotations. We show that fine-tuning on this data with a style-transferred model improves the performance further. In a thorough ablation study, we give a targeted analysis of the influence of style intensities, revealing that the model learns generic domain styles. Additionally, we provide a pose-based image retrieval to demonstrate the effectiveness of our method.
翻訳日:2024-02-27 21:58:29 公開日:2024-02-25
# LLM Blueprint:複雑で詳細なプロンプトによるテキスト・画像生成の実現

LLM Blueprint: Enabling Text-to-Image Generation with Complex and Detailed Prompts ( http://arxiv.org/abs/2310.10640v2 )

ライセンス: Link先を確認
Hanan Gani, Shariq Farooq Bhat, Muzammal Naseer, Salman Khan, Peter Wonka(参考訳) 拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長い複雑なテキストのプロンプトを処理すると、複雑なシーンを複数のオブジェクトで記述することが困難になる。 単一対象の短い記述から画像を生成するのに優れているが、これらのモデルは、より長くより精巧なテキスト入力の中で、すべてのニュアンスされた詳細を忠実に捉えるのに苦労することが多い。 本稿では,前景オブジェクトのバウンディングボックス座標,個々のオブジェクトに対する詳細なテキスト記述,簡潔な背景コンテキストなど,テキストプロンプトから重要なコンポーネントを抽出するために,大規模言語モデル(llms)を活用する新しい手法を提案する。 これらのコンポーネントは、2つのフェーズで動作するレイアウト・ツー・イメージ生成モデルの基礎を形成します。 初期のグローバルシーン生成では、オブジェクトレイアウトと背景コンテキストを使用して初期シーンを生成するが、プロンプトで指定されたオブジェクト特性を忠実に表現することがしばしばある。 この制限に対処するために、ボックスレベルのコンテンツを反復的に評価・洗練し、テキスト記述と整合させ、一貫性を確保するために必要に応じてオブジェクトを再構成する反復的リファインメントスキームを導入する。 複数のオブジェクトを含む複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。 複雑なテキスト入力からコヒーレントで詳細なシーンを生成するためのアプローチの有効性を,ユーザによる研究によってさらに検証した。

Diffusion-based generative models have significantly advanced text-to-image generation but encounter challenges when processing lengthy and intricate text prompts describing complex scenes with multiple objects. While excelling in generating images from short, single-object descriptions, these models often struggle to faithfully capture all the nuanced details within longer and more elaborate textual inputs. In response, we present a novel approach leveraging Large Language Models (LLMs) to extract critical components from text prompts, including bounding box coordinates for foreground objects, detailed textual descriptions for individual objects, and a succinct background context. These components form the foundation of our layout-to-image generation model, which operates in two phases. The initial Global Scene Generation utilizes object layouts and background context to create an initial scene but often falls short in faithfully representing object characteristics as specified in the prompts. To address this limitation, we introduce an Iterative Refinement Scheme that iteratively evaluates and refines box-level content to align them with their textual descriptions, recomposing objects as needed to ensure consistency. Our evaluation on complex prompts featuring multiple objects demonstrates a substantial improvement in recall compared to baseline diffusion models. This is further validated by a user study, underscoring the efficacy of our approach in generating coherent and detailed scenes from intricate textual inputs.
翻訳日:2024-02-27 21:55:59 公開日:2024-02-25
# Dont Add, Dont Miss: 事前選択されたテキストスパンの効果的なコンテンツ保存

Dont Add, dont Miss: Effective Content Preserving Generation from Pre-Selected Text Spans ( http://arxiv.org/abs/2310.09017v3 )

ライセンス: Link先を確認
Aviv Slobodkin, Avi Caciularu, Eran Hirsch, Ido Dagan(参考訳) 最近導入されたCTRタスクは、典型的な要約スタイルのタスクの中でテキスト生成ステップを分離する。 入力テキスト(``highlights'')内の事前選択されたコンテンツに対応するコヒーレントテキストを生成するために、モデルに挑戦する。 このフレーミングにより、要約のようなタスクのモジュラリティが向上し、単一のCTRモデルとさまざまなコンテンツ選択設定とモジュールを結合することができる。 しかし、現在信頼性の高いCTRモデルは存在しないが、タスクの既存のベースラインのパフォーマンスは平凡であり、実用性に欠けている。 ここでは、コンテンツ保存制約の不適切な実施と最適銀トレーニングデータという2つの重要な制約に対処する、高品質でオープンソースのCTRモデルを導入することで、このギャップに対処する。 これらの問題に対処するため、RLと推論の両方のトレーニングにおいて、制御された復号戦略によりコンテンツ保存制約を増幅する。 さらに, GPT-4蒸留により銀のトレーニングデータ品質を大幅に改善する。 全体として、蒸留したデータセットとハイライト順守戦略を組み合わせれば、現在のベースラインを最大30ROUGE-Lポイントまで上回り、下流での信頼性の高いCTRモデルを提供する。

The recently introduced Controlled Text Reduction (CTR) task isolates the text generation step within typical summarization-style tasks. It does so by challenging models to generate coherent text conforming to pre-selected content within the input text (``highlights''). This framing enables increased modularity in summarization-like tasks, allowing to couple a single CTR model with various content-selection setups and modules. However, there are currently no reliable CTR models, while the performance of the existing baseline for the task is mediocre, falling short of practical utility. Here, we address this gap by introducing a high-quality, open-source CTR model that tackles two prior key limitations: inadequate enforcement of the content-preservation constraint, and suboptimal silver training data. Addressing these, we amplify the content-preservation constraint in both training, via RL, and inference, via a controlled decoding strategy. Further, we substantially improve the silver training data quality via GPT-4 distillation. Overall, pairing the distilled dataset with the highlight-adherence strategies yields marked gains over the current baseline, of up to 30 ROUGE-L points, providing a reliable CTR model for downstream use.
翻訳日:2024-02-27 21:55:34 公開日:2024-02-25
# 夫婦のディヤド会話における感情体験のデコード:文埋め込みによる意味的類似性の利用

Decoding Emotional Experiences in Dyadic Conversations of Married Couples: Leveraging Semantic Similarity through Sentence Embedding ( http://arxiv.org/abs/2309.12646v2 )

ライセンス: Link先を確認
Chen-Wei Yu, Yun-Shiuan Chuang, Alexandros N. Lotsos, and Claudia M. Haase(参考訳) 自然言語処理(NLP)の最近の進歩は、意味的類似性(以下、類似性)の測定における文埋め込みの可能性を強調している。 しかし、この手法が現実世界のダイアドの相互作用を分析し、これらの相互作用に反応して人々の感情的な経験を予測するのに使えるかどうかは、まだほとんどわかっていない。 このギャップを埋めるため,本研究は自然主義的な10分間の衝突と10分間のポジティブな会話に携わる50人の夫婦の言語会話を分析した。 変換器ベースモデルであるGeneral Text Embeddings-Large を用いて各話者からの発話の埋め込みを求める。 会話の全体的な類似度は、隣接する発話の埋め込みの平均コサイン類似度によって定量化される。 その結果、より低い類似度はポジティブな会話におけるポジティブな感情体験(対立しない)と関係していることがわかった。 フォローアップ分析が示す (a)夫婦の満足度と発話対数を制御する場合、引き続き安定している。 (b)類似度尺度は、ディヤド会話の重要な特徴を捉える際に有効である。 本研究は, 感情・関係科学におけるNLPツールの革新的活用の道を開くことを目的として, 対人的ダイナミクスと個人的感情経験の関連性を理解するための文埋め込みの有用性について述べる。

Recent advancements in Natural Language Processing (NLP) have highlighted the potential of sentence embeddings in measuring semantic similarity (hereafter similarity). Yet, whether this approach can be used to analyze real-world dyadic interactions and predict people's emotional experiences in response to these interactions remains largely uncharted. To bridge this gap, the present study analyzes verbal conversations of 50 married couples who engage in naturalistic 10-minute conflict and 10-minute positive conversations. Transformer-based model General Text Embeddings-Large is employed to obtain the embeddings of the utterances from each speaker. The overall similarity of the conversations is then quantified by the average cosine similarity between the embeddings of adjacent utterances. Results show that lower similarity is associated with greater positive emotional experiences in the positive (but not conflict) conversation. Follow-up analyses show that (a) findings remain stable when controlling for marital satisfaction and the number of utterance pairs and (b) the similarity measure is valid in capturing critical features of a dyadic conversation. The present study underscores the potency of sentence embeddings in understanding links between interpersonal dynamics and individual emotional experiences, paving the way for innovative applications of NLP tools in affective and relationship science.
翻訳日:2024-02-27 21:54:35 公開日:2024-02-25
# GumbelSoft: GumbelMax-trickによる多言語モデル透かし

GumbelSoft: Diversified Language Model Watermarking via the GumbelMax-trick ( http://arxiv.org/abs/2402.12948v2 )

ライセンス: Link先を確認
Jiayi Fu, Xuandong Zhao, Ruihan Yang, Yuansen Zhang, Jiangjie Chen, Yanghua Xiao(参考訳) 大型言語モデル(LLM)は、人間のようなテキストを生成するだけでなく、フェイクニュースや学術的不正の誤用も懸念している。 デコードベースのウォーターマーク、特にgumbelmax-trick-based watermark(gm watermark)は、顕著な検出性のため、マシン生成テキストを保護するためのスタンアウトソリューションである。 しかし、gmのウォーターマークは世代多様性において大きな課題に遭遇し、常に同じプロンプトで同じ出力を生成し、世代多様性とユーザエクスペリエンスに悪影響を及ぼす。 この制限を克服するために,gmウォーターマークの新しいタイプ,logits-additionウォーターマーク,およびその3つの変種を提案する。 このうち、gumbelsoft watermark(logits-addition watermarkのソフトマックス変種)は、aurocスコアが0.1から0.3の2つの異なる変種を上回り、デコードベースのウォーターマーキング法を最小0.1に上回り、高い多様性設定で優れた性能を示している。

Large language models (LLMs) excellently generate human-like text, but also raise concerns about misuse in fake news and academic dishonesty. Decoding-based watermark, particularly the GumbelMax-trick-based watermark(GM watermark), is a standout solution for safeguarding machine-generated texts due to its notable detectability. However, GM watermark encounters a major challenge with generation diversity, always yielding identical outputs for the same prompt, negatively impacting generation diversity and user experience. To overcome this limitation, we propose a new type of GM watermark, the Logits-Addition watermark, and its three variants, specifically designed to enhance diversity. Among these, the GumbelSoft watermark (a softmax variant of the Logits-Addition watermark) demonstrates superior performance in high diversity settings, with its AUROC score outperforming those of the two alternative variants by 0.1 to 0.3 and surpassing other decoding-based watermarking methods by a minimum of 0.1.
翻訳日:2024-02-27 21:44:38 公開日:2024-02-25
# Archer: 算術的,常識的,仮説的推論を備えた人間ラベルのテキスト-SQLデータセット

Archer: A Human-Labeled Text-to-SQL Dataset with Arithmetic, Commonsense and Hypothetical Reasoning ( http://arxiv.org/abs/2402.12554v2 )

ライセンス: Link先を確認
Danna Zheng, Mirella Lapata, Jeff Z. Pan(参考訳) Archerは、算術、常識、仮説推論を含む複雑な推論に特有な、二言語からSQLへの挑戦的なデータセットである。 1,042の英語質問と1,042の中国語質問に加えて、521のユニークなSQLクエリがあり、20のドメインにわたる20の英語データベースを含んでいる。 このデータセットは、既存の公開データセットと比較して、はるかに高い複雑さを示している。 評価の結果、アーチャーは現在の最先端モデルの能力に挑戦し、スパイダー・リーダーボードの上位モデルではアーチャーテストセットの実行精度は6.73%に過ぎなかった。 したがって、アーチャーはこの分野で将来の研究に重要な課題を提示している。

We present Archer, a challenging bilingual text-to-SQL dataset specific to complex reasoning, including arithmetic, commonsense and hypothetical reasoning. It contains 1,042 English questions and 1,042 Chinese questions, along with 521 unique SQL queries, covering 20 English databases across 20 domains. Notably, this dataset demonstrates a significantly higher level of complexity compared to existing publicly available datasets. Our evaluation shows that Archer challenges the capabilities of current state-of-the-art models, with a high-ranked model on the Spider leaderboard achieving only 6.73% execution accuracy on Archer test set. Thus, Archer presents a significant challenge for future research in this field.
翻訳日:2024-02-27 21:44:15 公開日:2024-02-25
# 大規模言語モデルによる説明の解釈はどの程度可能か?

How Interpretable are Reasoning Explanations from Prompting Large Language Models? ( http://arxiv.org/abs/2402.11863v2 )

ライセンス: Link先を確認
Wei Jie Yeo, Ranjan Satapathy, Goh Siow Mong, Rick, Erik Cambria(参考訳) Prompt Engineeringは、多数のタスクにわたる大規模言語モデルの性能向上に重要な注目を集めている。 chain-of-thoughtのようなテクニックは、タスクのパフォーマンスを高めるだけでなく、明確な推論ステップの軌跡を示し、聴衆に具体的な説明を提供する。 解釈可能性に関する先行研究は、単数軸(すなわち忠実性)に沿ってのみ思考の連鎖によって得られる推論連鎖を評価する。 本稿では,多面的な解釈可能性の評価を行い,信頼度だけでなく,複数のコモンセンス推論ベンチマークにおける堅牢性や有用性についても検討する。 同様に、我々の調査は単一のプロンプト技術に限らず、大規模言語モデルで広く用いられているプロンプト技術の範囲を広くカバーし、広範かつ徹底的な評価を保証する。 さらに,多次元の解釈性において70\%以上の改善をもたらす,自己補足連鎖思考と呼ばれる単純な解釈可能性アライメント手法を導入する。 コードはhttps://github.com/wj210/CoT_interpretabilityで入手できる。

Prompt Engineering has garnered significant attention for enhancing the performance of large language models across a multitude of tasks. Techniques such as the Chain-of-Thought not only bolster task performance but also delineate a clear trajectory of reasoning steps, offering a tangible form of explanation for the audience. Prior works on interpretability assess the reasoning chains yielded by Chain-of-Thought solely along a singular axis, namely faithfulness. We present a comprehensive and multifaceted evaluation of interpretability, examining not only faithfulness but also robustness and utility across multiple commonsense reasoning benchmarks. Likewise, our investigation is not confined to a single prompting technique; it expansively covers a multitude of prevalent prompting techniques employed in large language models, thereby ensuring a wide-ranging and exhaustive evaluation. In addition, we introduce a simple interpretability alignment technique, termed Self-Entailment-Alignment Chain-of-thought, that yields more than 70\% improvements across multiple dimensions of interpretability. Code is available at https://github.com/wj210/CoT_interpretability
翻訳日:2024-02-27 21:44:01 公開日:2024-02-25
# ヒルベルト変換スパイク符号化方式を用いた低消費電力SNN音源定位

Low-power SNN-based audio source localisation using a Hilbert Transform spike encoding scheme ( http://arxiv.org/abs/2402.11748v2 )

ライセンス: Link先を確認
Saeid Haghighatshoar and Dylan R Muir(参考訳) 音源ローカライズは多くの家電機器で使われ、個々のスピーカーからオーディオを分離し、ノイズを拒否するのに役立つ。 ローカライゼーションは、マイクロホンオーディオストリームを組み合わせて特定のインシデントソース方向から受信した信号パワーを改善する"ビーアフォーミング"アルゴリズムによってしばしば達成される。 ビームフォーミングアルゴリズムは一般に、音声ソースの周波数成分と既知のマイクロフォンアレイの形状の知識を用いて、それらを結合する前に位相シフトマイクロホンストリームの分析を行う。 帯域通過フィルタの高密度セットは、広帯域オーディオストリームから既知の周波数の「狭帯域」成分を得るためにしばしば用いられる。 これらのアプローチは高い精度を達成するが、最先端の狭帯域ビームフォーミングアルゴリズムは計算上要求されるため、低消費電力iotデバイスへの統合は困難である。 超低消費電力スパイキングニューラルネットワーク(SNN)の効率的な実装を目的とした,任意のマイクロホンアレイにおける音源定位手法を提案する。 我々は,新しい短時間ヒルベルト変換(stht)を用いて,音声の帯域通過フィルタの必要性をなくし,スパイクイベントを伴う音声符号化の新たな手法を提案する。 我々のビームフォーミング・ローカライゼーション手法は,従来の非SNN超解像法に匹敵する,SNN手法の最先端精度を実現する。 提案手法を低消費電力SNN音声推論ハードウェアに展開し,超解像法と比較して低消費電力化を実現している。 我々は,信号処理手法をスパイクニューラルネットワークの実装と協調して高レベルの電力効率を実現することを実証する。 我々の新しいヒルベルト変換を用いたビームフォーミング法は、従来のDSPベースの信号処理の効率を向上させる。

Sound source localisation is used in many consumer electronics devices, to help isolate audio from individual speakers and to reject noise. Localization is frequently accomplished by "beamforming" algorithms, which combine microphone audio streams to improve received signal power from particular incident source directions. Beamforming algorithms generally use knowledge of the frequency components of the audio source, along with the known microphone array geometry, to analytically phase-shift microphone streams before combining them. A dense set of band-pass filters is often used to obtain known-frequency "narrowband" components from wide-band audio streams. These approaches achieve high accuracy, but state of the art narrowband beamforming algorithms are computationally demanding, and are therefore difficult to integrate into low-power IoT devices. We demonstrate a novel method for sound source localisation in arbitrary microphone arrays, designed for efficient implementation in ultra-low-power spiking neural networks (SNNs). We use a novel short-time Hilbert transform (STHT) to remove the need for demanding band-pass filtering of audio, and introduce a new accompanying method for audio encoding with spiking events. Our beamforming and localisation approach achieves state-of-the-art accuracy for SNN methods, and comparable with traditional non-SNN super-resolution approaches. We deploy our method to low-power SNN audio inference hardware, and achieve much lower power consumption compared with super-resolution methods. We demonstrate that signal processing approaches can be co-designed with spiking neural network implementations to achieve high levels of power efficiency. Our new Hilbert-transform-based method for beamforming promises to also improve the efficiency of traditional DSP-based signal processing.
翻訳日:2024-02-27 21:43:42 公開日:2024-02-25
# 半監督エンターメント信号による可塑性抽出合理化

Plausible Extractive Rationalization through Semi-Supervised Entailment Signal ( http://arxiv.org/abs/2402.08479v4 )

ライセンス: Link先を確認
Wei Jie Yeo, Ranjan Satapathy, Erik Cambria(参考訳) 複雑で不透明なブラックボックスモデルの使用の増加は、解釈可能な測度の採用を必要とするが、そのような選択肢の1つは、より解釈可能な代替手段として機能する抽出的合理化モデルである。 これらのモデルは、説明-予測モデルとしても知られ、理論を抽出し、その後、抽出された情報で予測者を条件付けるために説明器モデルを用いる。 彼らの主な目的は、抽出された合理性によって表される正確で忠実な説明を提供することである。 本稿では,抽出された有理量の妥当性を最適化する半教師付き手法を提案する。 我々は、事前訓練された自然言語推論(NLI)モデルを採用し、さらに、教師付き論理の小さなセット(10\%$)に微調整する。 NLI予測器は、エンテーメントアライメントにより、説明者への監視信号のソースとして活用される。 質問応答タスクにおける説明と回答のアライメント合意を強制することにより、真理ラベルにアクセスせずに性能を向上させることができることを示す。 ERASERデータセットに対する我々のアプローチを評価し,提案手法が教師付き抽出モデルを用いて同等の結果を得ることを示す。

The increasing use of complex and opaque black box models requires the adoption of interpretable measures, one such option is extractive rationalizing models, which serve as a more interpretable alternative. These models, also known as Explain-Then-Predict models, employ an explainer model to extract rationales and subsequently condition the predictor with the extracted information. Their primary objective is to provide precise and faithful explanations, represented by the extracted rationales. In this paper, we take a semi-supervised approach to optimize for the plausibility of extracted rationales. We adopt a pre-trained natural language inference (NLI) model and further fine-tune it on a small set of supervised rationales ($10\%$). The NLI predictor is leveraged as a source of supervisory signals to the explainer via entailment alignment. We show that, by enforcing the alignment agreement between the explanation and answer in a question-answering task, the performance can be improved without access to ground truth labels. We evaluate our approach on the ERASER dataset and show that our approach achieves comparable results with supervised extractive models and outperforms unsupervised approaches by $> 100\%$.
翻訳日:2024-02-27 21:43:12 公開日:2024-02-25
# 言語処理タスクとしてのパラメータ効率の良い会話レコメンダシステム

Parameter-Efficient Conversational Recommender System as a Language Processing Task ( http://arxiv.org/abs/2401.14194v3 )

ライセンス: Link先を確認
Mathieu Ravaut, Hao Zhang, Lu Xu, Aixin Sun, Yong Liu(参考訳) 会話レコメンデータシステム(CRS)は,自然言語会話を通じてユーザの好みを抽出し,関連項目をユーザに推薦することを目的としている。 先行研究では、項目の意味情報に外部知識グラフ、対話生成のための言語モデル、関連する項目のランキングに推奨モジュールを用いることが多い。 この複数のコンポーネントの組み合わせは、面倒なトレーニングプロセスに悩まされ、対話生成とアイテムレコメンデーションのセマンティックなミスアライメント問題を引き起こす。 本稿では、自然言語の項目を表現し、CRSを自然言語処理タスクとして定式化する。 したがって、事前学習された言語モデルの力を利用して、アイテムをエンコードし、会話を通じてユーザの意図を理解し、セマンティックマッチングを通じてアイテムレコメンデーションを行い、対話を生成する。 統一モデルとして、知識グラフのような非テキストメタデータに頼ることなく、PECRS(Parameter-Efficient CRS)を単一段階で最適化することができる。 2つのベンチマークCRSデータセットであるReDialとINSPIREDの実験は、レコメンデーションと会話におけるPECRSの有効性を実証している。 私たちのコードは、https://github.com/ravoxsg/ efficient_unified_crsで利用可能です。

Conversational recommender systems (CRS) aim to recommend relevant items to users by eliciting user preference through natural language conversation. Prior work often utilizes external knowledge graphs for items' semantic information, a language model for dialogue generation, and a recommendation module for ranking relevant items. This combination of multiple components suffers from a cumbersome training process, and leads to semantic misalignment issues between dialogue generation and item recommendation. In this paper, we represent items in natural language and formulate CRS as a natural language processing task. Accordingly, we leverage the power of pre-trained language models to encode items, understand user intent via conversation, perform item recommendation through semantic matching, and generate dialogues. As a unified model, our PECRS (Parameter-Efficient CRS), can be optimized in a single stage, without relying on non-textual metadata such as a knowledge graph. Experiments on two benchmark CRS datasets, ReDial and INSPIRED, demonstrate the effectiveness of PECRS on recommendation and conversation. Our code is available at: https://github.com/Ravoxsg/efficient_unified_crs.
翻訳日:2024-02-27 21:42:04 公開日:2024-02-25
# Text+Code LLMにおける条件推論能力のコードプロンプト

Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs ( http://arxiv.org/abs/2401.10065v2 )

ライセンス: Link先を確認
Haritz Puerto, Martin Tutek, Somak Aditya, Xiaodan Zhu, Iryna Gurevych(参考訳) 推論は言語理解の基本的な要素である。 思考の連鎖のような近年のプロンプト技術は、様々な推論タスクにおけるLLMの性能を一貫して改善している。 それでも、推論段階におけるLSMの推論能力の引き金となるものは、まだほとんど分かっていない。 本稿では、自然言語問題をコードに変換する一連のプロンプトであるコードプロンプトを導入し、外部コードの実行に頼ることなく、生成したコードを使って直接LLMをプロンプトする。 我々は、コードプロンプトが、テキストとコードで訓練されたllmの特定の推論能力を引き出すことができると仮定し、提案手法を利用して条件付き推論を改善し、特定の条件を満たすことによって異なる結論を推測できると仮定する。 コードプロンプトは複数のLCM(GPT 3.5で最大22.52ポイント、Mixtralで7.75ポイント、Mistralで16.78ポイント)を複数の条件推論データセットで高速に向上させる。 次に、コードがどのように推論能力を引き出すのか、基礎となるモデルでどの能力を引き出すのかを理解するための包括的な実験を行います。 GPT 3.5の解析により,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。 さらに、コードはコンテキスト内学習のサンプル効率を改善し、変数やエンティティの状態追跡を容易にする。

Reasoning is a fundamental component of language understanding. Recent prompting techniques, such as chain of thought, have consistently improved LLMs' performance on various reasoning tasks. Nevertheless, there is still little understanding of what triggers reasoning abilities in LLMs in the inference stage. In this paper, we introduce code prompting, a chain of prompts that transforms a natural language problem into code and directly prompts the LLM using the generated code without resorting to external code execution. We hypothesize that code prompts can elicit certain reasoning capabilities of LLMs trained on text and code and utilize the proposed method to improve conditional reasoning, the ability to infer different conclusions depending on the fulfillment of certain conditions. We find that code prompting exhibits a high-performance boost for multiple LLMs (up to 22.52 percentage points on GPT 3.5, 7.75 on Mixtral, and 16.78 on Mistral) across multiple conditional reasoning datasets. We then conduct comprehensive experiments to understand how code prompts trigger reasoning abilities and which capabilities are elicited in the underlying models. Our analysis of GPT 3.5 reveals that the code formatting of the input problem is essential for performance improvement. Furthermore, code prompts improve sample efficiency of in-context learning and facilitate state tracking of variables or entities.
翻訳日:2024-02-27 21:41:44 公開日:2024-02-25
# 意味的提案生成による全画像におけるテキストベース人物検索

Text-based Person Search in Full Images via Semantic-Driven Proposal Generation ( http://arxiv.org/abs/2109.12965v3 )

ライセンス: Link先を確認
Shizhou Zhang, De Cheng, Wenlong Luo, Yinghui Xing, Duo Long, Hao Li, Kai Niu, Guoqiang Liang, Yanning Zhang(参考訳) テキスト記述のクエリによるフルシーン画像中の対象人物の検索は、インテリジェントなビデオ監視において重要な実用的応用であるが、バウンディングボックスが利用できない現実のシナリオとは違い、既存のテキストベースの人物検索手法は主に、クエリテキスト記述と収穫した歩行者画像のギャラリーとの相互マッチングに焦点を当てている。 このギャップを埋めるために,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化する新しいエンドツーエンド学習フレームワークを提案することによって,全画像におけるテキストベースの人物検索の問題を研究する。 クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。 また、クロススケールなビジュアル・セマンティックな埋め込み機構を利用して性能を向上させる。 提案手法を検証するために,広く採用されている画像ベース人物検索データセットCUHK-SYSUとPRWに基づいて,大規模なベンチマークデータセットを2つ収集し,注釈付けする。 2つのデータセット上で総合的な実験を行い,ベースライン法と比較し,最先端の性能を実現する。

Finding target persons in full scene images with a query of text description has important practical applications in intelligent video surveillance.However, different from the real-world scenarios where the bounding boxes are not available, existing text-based person retrieval methods mainly focus on the cross modal matching between the query text descriptions and the gallery of cropped pedestrian images. To close the gap, we study the problem of text-based person search in full images by proposing a new end-to-end learning framework which jointly optimize the pedestrian detection, identification and visual-semantic feature embedding tasks. To take full advantage of the query text, the semantic features are leveraged to instruct the Region Proposal Network to pay more attention to the text-described proposals. Besides, a cross-scale visual-semantic embedding mechanism is utilized to improve the performance. To validate the proposed method, we collect and annotate two large-scale benchmark datasets based on the widely adopted image-based person search datasets CUHK-SYSU and PRW. Comprehensive experiments are conducted on the two datasets and compared with the baseline methods, our method achieves the state-of-the-art performance.
翻訳日:2024-02-27 19:54:23 公開日:2024-02-25
# MSR-Video to Text Dataset with Clean Annotations (英語)

The MSR-Video to Text Dataset with Clean Annotations ( http://arxiv.org/abs/2102.06448v4 )

ライセンス: Link先を確認
Haoran Chen, Jianmin Li, Simone Frintrop, Xiaolin Hu(参考訳) ビデオキャプションは、通常1文の形で、ビデオコンテンツの短い記述を自動的に生成する。 この課題を解決するための多くの方法が提案されている。 MSR Video to Text (MSR-VTT)と呼ばれる大規模なデータセットは、しばしばメソッドのパフォーマンスをテストするためのベンチマークデータセットとして使用される。 しかし、人間のアノテーション、すなわちデータセット内のビデオ内容の記述は非常に騒々しいこと、例えば重複キャプションが多数あり、多くのキャプションが文法的な問題を含んでいることがわかった。 これらの問題は、基本的なパターンを学ぶためにビデオキャプションモデルに困難をもたらす可能性がある。 これらの問題を除去してMSR-VTTアノテーションをクリーン化し、クリーン化したデータセット上でいくつかの典型的なビデオキャプションモデルをテストする。 実験の結果,データクリーニングにより,一般的な定量的指標によって測定されたモデルの性能が向上した。 被験者を募集し、オリジナルおよびクリーンなデータセットでトレーニングされたモデルの結果を評価する。 human behavior experimentは、クリーンなデータセットでトレーニングされたモデルが、ビデオクリップの内容に対してより一貫性があり、より関連のあるキャプションを生成することを実証した。

Video captioning automatically generates short descriptions of the video content, usually in form of a single sentence. Many methods have been proposed for solving this task. A large dataset called MSR Video to Text (MSR-VTT) is often used as the benchmark dataset for testing the performance of the methods. However, we found that the human annotations, i.e., the descriptions of video contents in the dataset are quite noisy, e.g., there are many duplicate captions and many captions contain grammatical problems. These problems may pose difficulties to video captioning models for learning underlying patterns. We cleaned the MSR-VTT annotations by removing these problems, then tested several typical video captioning models on the cleaned dataset. Experimental results showed that data cleaning boosted the performances of the models measured by popular quantitative metrics. We recruited subjects to evaluate the results of a model trained on the original and cleaned datasets. The human behavior experiment demonstrated that trained on the cleaned dataset, the model generated captions that were more coherent and more relevant to the contents of the video clips.
翻訳日:2024-02-27 19:53:25 公開日:2024-02-25
# 吸収による洪水:複雑ネットワーク上の不均一帯域の効率的なプロトコル

Flooding with Absorption: An Efficient Protocol for Heterogeneous Bandits over Complex Networks ( http://arxiv.org/abs/2303.05445v4 )

ライセンス: Link先を確認
Junghyun Lee, Laura Schmid, Se-Young Yun(参考訳) マルチアームのバンディットはシーケンシャルな意思決定のモデル化に広く使われており、オンラインレコメンデーションシステムやワイヤレスネットワークなど、多くの現実のアプリケーションで広く使われている。 我々は,各エージェントがそれぞれ異なるアームを持つバンドイットインスタンスを解くマルチエージェント設定について検討する。 彼らの目標は、あるネットワーク上の通信プロトコルを介して協力しながら、グループの後悔を最小限にすることである。 この問題に関する以前の文献では、腕の不均一性とネットワークエージェントを別々に考慮していた。 本稿では,両方の特徴を包含する設定を導入する。 この新しい設定のために、我々はまず、古典的なUTBポリシーと組み合わされた標準洪水プロトコルに対する厳格な後悔の分析を行う。 そこで本稿では,複雑なネットワークの浸水による通信コストの低減を図るため,FwA(Flooding with absorption)と呼ばれる新しいプロトコルを提案する。 以上の結果について理論的解析を行い,洪水時のFwAの利点について考察する。 最後に、FwAが他のネットワークプロトコルと比較して最小限の性能損失にもかかわらず、通信コストを大幅に低下させるという、動的ネットワークを含む様々なシナリオを実験的に検証する。

Multi-armed bandits are extensively used to model sequential decision-making, making them ubiquitous in many real-life applications such as online recommender systems and wireless networking. We consider a multi-agent setting where each agent solves their own bandit instance endowed with a different set of arms. Their goal is to minimize their group regret while collaborating via some communication protocol over a given network. Previous literature on this problem only considered arm heterogeneity and networked agents separately. In this work, we introduce a setting that encompasses both features. For this novel setting, we first provide a rigorous regret analysis for a standard flooding protocol combined with the classic UCB policy. Then, to mitigate the issue of high communication costs incurred by flooding in complex networks, we propose a new protocol called Flooding with Absorption (FwA). We provide a theoretical analysis of the resulting regret bound and discuss the advantages of using FwA over flooding. Lastly, we experimentally verify on various scenarios, including dynamic networks, that FwA leads to significantly lower communication costs despite minimal regret performance loss compared to other network protocols.
翻訳日:2024-02-27 19:50:31 公開日:2024-02-25
# 胸部X線による疾患検出のためのコンテンツ認識型不変モデルによる未確認領域への一般化の学習

Learning to Generalize towards Unseen Domains via a Content-Aware Style Invariant Model for Disease Detection from Chest X-rays ( http://arxiv.org/abs/2302.13991v4 )

ライセンス: Link先を確認
Mohammad Zunaed, Md. Aynal Haque, Taufiq Hasan(参考訳) 分布の不一致による性能低下は、知的イメージング、特に胸部x線(cxr)における長年の課題である。 近年の研究では、cnnは人間の視覚システムとは対照的に、内容(例えば形状)よりもスタイル(例えば、非形成テクスチャ)に偏っていることが示されている。 放射線学者は、CXRから視覚的手がかりを学び、複数の領域でよく機能する傾向にある。 そこで我々は、画像(SRM-IL)と特徴(SRM-FL)の両方において、新しいオンザフライスタイルのランダム化モジュールを使用し、リッチなスタイルの摂動機能を作成しながら、コンテンツが堅牢なクロスドメインパフォーマンスを維持する。 従来の方法は、補間や既存のデータからのスタイル交換を通じて新しいスタイルを構築し、トレーニング中に利用可能なソースドメインに制限することで、目に見えないドメインをシミュレートする。 しかし、SRM-ILはトレーニングデータの代わりに、CXR画像の可能な値範囲からスタイル統計をサンプリングし、より多様化された拡張を実現する。 さらに,srm-flにおけるピクセル単位の学習可能なパラメータと,予め定義されたチャネル単位の平均と標準偏差を,より代表的なスタイル特徴をキャプチャするスタイル埋め込みとして利用する。 さらに,同一のcxrのスタイル摂動バージョンの有無によるグローバル意味的特徴と予測分布の一貫性を定式化し,正確な予測のためにコンテンツマーカーに対するモデルの感度を微調整する。 提案手法はCheXpertおよびMIMIC-CXRデータセットに基づいて, 77.32$\pm$0.35, 88.38$\pm$0.19, 82.63$\pm$0.13 AUCs(%)を未確認領域試験データセット(BRAX, VinDr-CXR, NIH chest X-ray14)上で達成し, それぞれ75.56$\pm$0.80, 87.57$\pm$0.46, 82.07$\pm$0.19を, 胸腺疾患分類における統計的に有意な結果を得た5次クロスバリデーションモデルから得られた。

Performance degradation due to distribution discrepancy is a longstanding challenge in intelligent imaging, particularly for chest X-rays (CXRs). Recent studies have demonstrated that CNNs are biased toward styles (e.g., uninformative textures) rather than content (e.g., shape), in stark contrast to the human vision system. Radiologists tend to learn visual cues from CXRs and thus perform well across multiple domains. Motivated by this, we employ the novel on-the-fly style randomization modules at both image (SRM-IL) and feature (SRM-FL) levels to create rich style perturbed features while keeping the content intact for robust cross-domain performance. Previous methods simulate unseen domains by constructing new styles via interpolation or swapping styles from existing data, limiting them to available source domains during training. However, SRM-IL samples the style statistics from the possible value range of a CXR image instead of the training data to achieve more diversified augmentations. Moreover, we utilize pixel-wise learnable parameters in the SRM-FL compared to pre-defined channel-wise mean and standard deviations as style embeddings for capturing more representative style features. Additionally, we leverage consistency regularizations on global semantic features and predictive distributions from with and without style-perturbed versions of the same CXR to tweak the model's sensitivity toward content markers for accurate predictions. Our proposed method, trained on CheXpert and MIMIC-CXR datasets, achieves 77.32$\pm$0.35, 88.38$\pm$0.19, 82.63$\pm$0.13 AUCs(%) on the unseen domain test datasets, i.e., BRAX, VinDr-CXR, and NIH chest X-ray14, respectively, compared to 75.56$\pm$0.80, 87.57$\pm$0.46, 82.07$\pm$0.19 from state-of-the-art models on five-fold cross-validation with statistically significant results in thoracic disease classification.
翻訳日:2024-02-27 19:49:54 公開日:2024-02-25
# 実劣化画像に対するブラインド超解像とクラックセグメンテーションの連成学習

Joint Learning of Blind Super-Resolution and Crack Segmentation for Realistic Degraded Images ( http://arxiv.org/abs/2302.12491v3 )

ライセンス: Link先を確認
Yuki Kondo and Norimichi Ukita(参考訳) 本稿では,深層ニューラルネットワークを用いた超解像(SR)によるき裂分割を提案する。 提案手法では,SRネットワークとバイナリセグメンテーションネットワークを協調的にエンドツーエンドにトレーニングする。 この共同学習により、SRネットワークはセグメンテーション結果を改善するために最適化される。 現実的なシナリオでは、SRネットワークは未知のぼやけによって劣化した低解像度の画像を処理するために、非盲点から盲点へと拡張される。 提案する2つの経路により,srとセグメンテーションの相互最適化をさらに促進するジョイントネットワークを改良した。 state of the art (sota) セグメンテーション法との比較実験により,関節学習の優位性が示され,様々なアブレーション研究が貢献の効果を証明した。

This paper proposes crack segmentation augmented by super resolution (SR) with deep neural networks. In the proposed method, a SR network is jointly trained with a binary segmentation network in an end-to-end manner. This joint learning allows the SR network to be optimized for improving segmentation results. For realistic scenarios, the SR network is extended from non-blind to blind for processing a low-resolution image degraded by unknown blurs. The joint network is improved by our proposed two extra paths that further encourage the mutual optimization between SR and segmentation. Comparative experiments with State of The Art (SoTA) segmentation methods demonstrate the superiority of our joint learning, and various ablation studies prove the effects of our contributions.
翻訳日:2024-02-27 19:48:40 公開日:2024-02-25
# 確率的オンライン機器可変回帰:内在性と帯域フィードバックの回帰

Stochastic Online Instrumental Variable Regression: Regrets for Endogeneity and Bandit Feedback ( http://arxiv.org/abs/2302.09357v3 )

ライセンス: Link先を確認
Riccardo Della Vecchia, Debabrota Basu(参考訳) 内在性(英: Endogeneity)、すなわちノイズと共変量の依存は、省略変数、戦略的挙動、測定誤差などによる実データに共通する現象である。 対照的に、非有界雑音と線形帯域を持つ確率的オンライン線形回帰の既存の分析は、異種性、すなわちノイズと共変量の独立性に大きく依存している。 このギャップに触発された我々は、確率的オンライン学習のために、過度に同定された器用変数(IV)レグレッション(特に2段階の最小広場)を研究し、オンライン版である2段階の最小広場(O2SLS)を提案する。 o2sls は $\mathcal o(d_{x}d_{z}\log^2 t)$ id と $\widetilde{\mathcal o}(\gamma \sqrt{d_{z} t})$ oracle regret after $t$ interaction、ここで $d_{x}$ と $d_{z}$ は covariates と ivs の次元であり、$\gamma$ は内在性によるバイアスである。 O2SLS はexogeneity の下で$\gamma=0$ に対して $\mathcal O(d_{x}^2 \log^2T)$ oracle regret を示し、これは確率的オンラインリッジと同じ順序である。 次に,o2slsをoracleとして,確率線形バンディットアルゴリズムoful-ivを設計し,内在性に取り組む。 oful-iv は、exgeneity の下での後悔の下限に一致する $\widetilde{\mathcal o}(\sqrt{d_{x}d_{z}t})$ を与える。 内在性を持つ異なるデータセットに対して,O2SLSとOFUL-IVの有効性を実験的に示す。

Endogeneity, i.e. the dependence of noise and covariates, is a common phenomenon in real data due to omitted variables, strategic behaviours, measurement errors etc. In contrast, the existing analyses of stochastic online linear regression with unbounded noise and linear bandits depend heavily on exogeneity, i.e. the independence of noise and covariates. Motivated by this gap, we study the over- and just-identified Instrumental Variable (IV) regression, specifically Two-Stage Least Squares, for stochastic online learning, and propose to use an online variant of Two-Stage Least Squares, namely O2SLS. We show that O2SLS achieves $\mathcal O(d_{x}d_{z}\log^2 T)$ identification and $\widetilde{\mathcal O}(\gamma \sqrt{d_{z} T})$ oracle regret after $T$ interactions, where $d_{x}$ and $d_{z}$ are the dimensions of covariates and IVs, and $\gamma$ is the bias due to endogeneity. For $\gamma=0$, i.e. under exogeneity, O2SLS exhibits $\mathcal O(d_{x}^2 \log^2 T)$ oracle regret, which is of the same order as that of the stochastic online ridge. Then, we leverage O2SLS as an oracle to design OFUL-IV, a stochastic linear bandit algorithm to tackle endogeneity. OFUL-IV yields $\widetilde{\mathcal O}(\sqrt{d_{x}d_{z}T})$ regret that matches the regret lower bound under exogeneity. For different datasets with endogeneity, we experimentally show efficiencies of O2SLS and OFUL-IV.
翻訳日:2024-02-27 19:48:29 公開日:2024-02-25
# OmDet:マルチモーダル検出ネットワークを用いた大規模視覚言語マルチデータセット事前学習

OmDet: Large-scale vision-language multi-dataset pre-training with multimodal detection network ( http://arxiv.org/abs/2209.05946v2 )

ライセンス: Link先を確認
Tiancheng Zhao, Peng Liu and Kyusong Lee(参考訳) オープンボキャブラリおよびオープンワールドシナリオにおけるオブジェクト検出(OD)の進歩は、コンピュータビジョンにおいて重要な課題である。 この研究は、新しい言語対応オブジェクト検出アーキテクチャであるOmDetと、継続学習とマルチデータセットビジョン言語事前学習を利用する革新的なトレーニングメカニズムを紹介する。 自然言語を普遍的な知識表現として活用することで、OmDetは多様なデータセットから視覚語彙を蓄積し、言語条件検出フレームワークとしてタスクを統一する。 我々のマルチモーダル検出ネットワーク(MDN)は、マルチデータセット共同学習の課題を克服し、手動のラベル分類をマージせずに多数のトレーニングデータセットに一般化する。 我々は,OmDetが野生におけるオブジェクト検出,オープン語彙検出,フレーズグラウンドニングにおいて,強いベースラインよりも優れていることを示す。 アブレーション研究は、事前学習された視覚語彙のスケーリングの影響を明らかにし、より大きなデータセットへのさらなる拡張の有望な方向を示している。 我々のディープフュージョンアプローチの有効性は、複数のデータセットから共同で学習し、知識共有によるパフォーマンスを向上させる能力によって裏付けられている。

The advancement of object detection (OD) in open-vocabulary and open-world scenarios is a critical challenge in computer vision. This work introduces OmDet, a novel language-aware object detection architecture, and an innovative training mechanism that harnesses continual learning and multi-dataset vision-language pre-training. Leveraging natural language as a universal knowledge representation, OmDet accumulates a "visual vocabulary" from diverse datasets, unifying the task as a language-conditioned detection framework. Our multimodal detection network (MDN) overcomes the challenges of multi-dataset joint training and generalizes to numerous training datasets without manual label taxonomy merging. We demonstrate superior performance of OmDet over strong baselines in object detection in the wild, open-vocabulary detection, and phrase grounding, achieving state-of-the-art results. Ablation studies reveal the impact of scaling the pre-training visual vocabulary, indicating a promising direction for further expansion to larger datasets. The effectiveness of our deep fusion approach is underscored by its ability to learn jointly from multiple datasets, enhancing performance through knowledge sharing.
翻訳日:2024-02-27 19:46:35 公開日:2024-02-25
# tree-g: グラフニューラルネットワークを争う決定木

TREE-G: Decision Trees Contesting Graph Neural Networks ( http://arxiv.org/abs/2207.02760v5 )

ライセンス: Link先を確認
Maya Bechler-Speicher, Amir Globerson, Ran Gilad-Bachrach(参考訳) 表形式のデータを扱う場合、決定木に基づくモデルは、これらのデータタイプ、適用容易性、説明可能性特性において高い精度で選択される。 しかし、グラフ構造化データに関しては、トポロジ情報をグラフの頂点で利用可能な表データに組み込む方法として、どのように効果的に適用するかは明らかになっていない。 この課題に対処するために、TREE-Gを紹介する。 tree-gはグラフデータに特化した新しい分割関数を導入することで、標準決定木を修飾する。 このスプリット関数はノードの特徴とトポロジ的情報を組み込むだけでなく、スプリットノードが以前のスプリットで計算された情報を使用することを可能にする新しいポインタ機構を使用する。 従って、分割関数は、予測タスクと手前のグラフに適応する。 我々は、TREE-Gの理論的性質を分析し、その利点を複数のグラフおよび頂点予測ベンチマークで実証的に示す。 これらの実験では、TREE-Gは、他のツリーベースモデルよりも一貫して優れており、グラフニューラルネットワーク(GNN)やグラフカーネルなど、時には大きなマージンで、他のグラフ学習アルゴリズムよりも優れています。 さらに、TREE-Gsモデルとその予測を説明・視覚化することができる。

When dealing with tabular data, models based on decision trees are a popular choice due to their high accuracy on these data types, their ease of application, and explainability properties. However, when it comes to graph-structured data, it is not clear how to apply them effectively, in a way that incorporates the topological information with the tabular data available on the vertices of the graph. To address this challenge, we introduce TREE-G. TREE-G modifies standard decision trees, by introducing a novel split function that is specialized for graph data. Not only does this split function incorporate the node features and the topological information, but it also uses a novel pointer mechanism that allows split nodes to use information computed in previous splits. Therefore, the split function adapts to the predictive task and the graph at hand. We analyze the theoretical properties of TREE-G and demonstrate its benefits empirically on multiple graph and vertex prediction benchmarks. In these experiments, TREE-G consistently outperforms other tree-based models and often outperforms other graph-learning algorithms such as Graph Neural Networks (GNNs) and Graph Kernels, sometimes by large margins. Moreover, TREE-Gs models and their predictions can be explained and visualized
翻訳日:2024-02-27 19:46:14 公開日:2024-02-25
# 未知環境における動的メカニズムの学習 : 強化学習アプローチ

Learning Dynamic Mechanisms in Unknown Environments: A Reinforcement Learning Approach ( http://arxiv.org/abs/2202.12797v2 )

ライセンス: Link先を確認
Shuang Qiu, Boxiang Lyu, Qinglin Meng, Zhaoran Wang, Zhuoran Yang, Michael I. Jordan(参考訳) 動的メカニズム設計は、メカニズム設計者が時間変化のある環境でエージェント間でリソースを割り当てる方法を研究する。 エージェントが未知のマルコフ決定プロセス(MDP)に従ってメカニズムデザイナと相互作用する問題について考察し、エージェント報酬とメカニズムデザイナの状態は未知の報酬関数と遷移カーネルを持つエピソードMDPに従って進化する。 本稿では,線形関数近似によるオンライン設定に着目し,複数ラウンドのインタラクションを通じて動的ビックレー・クラーク・グローブ(vcg)機構を復元する新しい学習アルゴリズムを提案する。 当社のアプローチの重要な貢献は、報酬のないオンライン強化学習(RL)を導入して、リッチな政策空間を探索し、動的VCGメカニズムの価格を見積もることである。 提案手法の後悔は$\tilde{\mathcal{o}}(t^{2/3})$で上限され、さらに下限を考案し、我々のアルゴリズムが効率的であることを示し、同じ$\tilde{\mathcal{o}}(t^{2/3})$を下限として後悔することを示し、ここで$t$はラウンドの総数である。 我々の研究は、基礎となるモデルについて事前知識のない動的メカニズム設計問題の解決において、オンラインRLに対する後悔の保証を確立します。

Dynamic mechanism design studies how mechanism designers should allocate resources among agents in a time-varying environment. We consider the problem where the agents interact with the mechanism designer according to an unknown Markov Decision Process (MDP), where agent rewards and the mechanism designer's state evolve according to an episodic MDP with unknown reward functions and transition kernels. We focus on the online setting with linear function approximation and propose novel learning algorithms to recover the dynamic Vickrey-Clarke-Grove (VCG) mechanism over multiple rounds of interaction. A key contribution of our approach is incorporating reward-free online Reinforcement Learning (RL) to aid exploration over a rich policy space to estimate prices in the dynamic VCG mechanism. We show that the regret of our proposed method is upper bounded by $\tilde{\mathcal{O}}(T^{2/3})$ and further devise a lower bound to show that our algorithm is efficient, incurring the same $\tilde{\mathcal{O}}(T^{2 / 3})$ regret as the lower bound, where $T$ is the total number of rounds. Our work establishes the regret guarantee for online RL in solving dynamic mechanism design problems without prior knowledge of the underlying model.
翻訳日:2024-02-27 19:45:09 公開日:2024-02-25
# ハイパーネットワークによるタスク適応検索による深層強化学習

Deep Reinforcement Learning with Task-Adaptive Retrieval via Hypernetwork ( http://arxiv.org/abs/2306.10698v5 )

ライセンス: Link先を確認
Yonggang Jin, Chenxu Wang, Tianyu Zheng, Liuyu Xiang, Yaodong Yang, Junge Zhang, Jie Fu, Zhaofeng He(参考訳) 深層強化学習アルゴリズムは通常、正確な意思決定能力を得るために環境と複数の相互作用に依存する非効率のサンプリングによって妨げられる。 対照的に、人間は海馬を頼りに、関連するタスクの過去の経験から関連する情報を取得し、環境の相互作用にのみ依存するのではなく、新しいタスクを学ぶ際の意思決定を導く。 それにもかかわらず、過去の経験を確立された強化学習アルゴリズムに組み込むエージェントのための海馬のようなモジュールの設計には、2つの課題がある。 第1の課題は、現在のタスクに最も関連する過去の経験を選択することであり、第2の課題は、そのような経験を意思決定ネットワークに統合することである。 これらの課題に対処するために,タスク条件付きハイパーネットワークに基づく検索ネットワークを用いて,検索ネットワークのパラメータをタスクに応じて適応させる新しい手法を提案する。 同時に,動的修正機構により,検索ネットワークと意思決定ネットワークの協調作業が促進される。 提案手法は,Minigrid環境におけるマルチタスクシナリオにおいて,様々なタスクにまたがって評価される。 実験の結果,提案手法は強いベースラインを著しく上回ることがわかった。

Deep reinforcement learning algorithms are usually impeded by sampling inefficiency, heavily depending on multiple interactions with the environment to acquire accurate decision-making capabilities. In contrast, humans rely on their hippocampus to retrieve relevant information from past experiences of relevant tasks, which guides their decision-making when learning a new task, rather than exclusively depending on environmental interactions. Nevertheless, designing a hippocampus-like module for an agent to incorporate past experiences into established reinforcement learning algorithms presents two challenges. The first challenge involves selecting the most relevant past experiences for the current task, and the second challenge is integrating such experiences into the decision network. To address these challenges, we propose a novel method that utilizes a retrieval network based on task-conditioned hypernetwork, which adapts the retrieval network's parameters depending on the task. At the same time, a dynamic modification mechanism enhances the collaborative efforts between the retrieval and decision networks. We evaluate the proposed method across various tasks within a multitask scenario in the Minigrid environment. The experimental results demonstrate that our proposed method significantly outperforms strong baselines.
翻訳日:2024-02-27 19:40:08 公開日:2024-02-25
# RLtools: 継続的制御のための高速でポータブルなディープ強化学習ライブラリ

RLtools: A Fast, Portable Deep Reinforcement Learning Library for Continuous Control ( http://arxiv.org/abs/2306.03530v3 )

ライセンス: Link先を確認
Jonas Eschmann, Dario Albani, Giuseppe Loianno(参考訳) 深層強化学習(rl)は、いくつかの領域において有能なエージェントと制御ポリシーをもたらすが、通常、制限された長い訓練時間によって苦しめられる。 さらに、継続的な制御問題の場合、既存のライブラリのリアルタイム保証やポータビリティの欠如により、実世界の組み込みデバイスに対する学習ポリシーの適用性が制限される。 これらの課題に対処するため、我々は依存性のない、ヘッダのみの純粋なC++ライブラリであるRLtoolsを紹介した。 その新しいアーキテクチャにより、ワークステーションやラップトップのHPCクラスタ、スマートフォン、スマートウォッチ、マイクロコントローラなど、さまざまなプラットフォームでRLtoolが使用できるようになる。 具体的には、RLアルゴリズムとシミュレーション環境が密に統合されているため、RLtoolsは他のRLフレームワークの最大76倍の速度でRLの問題を解くことができる。 また、様々なマイクロコントローラセットで推論をベンチマークし、ほとんどの場合、最適化された実装がはるかに高速であることを示す。 最後に、RLtoolsは、マイクロコントローラ上でディープRLアルゴリズムを直接トレーニングする最初のデモンストレーションを可能にし、Tiny Reinforcement Learning(TinyRL)の分野を生み出します。 ソースコードとドキュメント、ライブのデモは、https://rl.tools.orgのプロジェクトページから入手できます。

Deep Reinforcement Learning (RL) can yield capable agents and control policies in several domains but is commonly plagued by prohibitively long training times. Additionally, in the case of continuous control problems, the applicability of learned policies on real-world embedded devices is limited due to the lack of real-time guarantees and portability of existing libraries. To address these challenges, we present RLtools, a dependency-free, header-only, pure C++ library for deep supervised and reinforcement learning. Its novel architecture allows RLtools to be used on a wide variety of platforms, from HPC clusters over workstations and laptops to smartphones, smartwatches, and microcontrollers. Specifically, due to the tight integration of the RL algorithms with simulation environments, RLtools can solve popular RL problems up to 76 times faster than other popular RL frameworks. We also benchmark the inference on a diverse set of microcontrollers and show that in most cases our optimized implementation is by far the fastest. Finally, RLtools enables the first-ever demonstration of training a deep RL algorithm directly on a microcontroller, giving rise to the field of Tiny Reinforcement Learning (TinyRL). The source code as well as documentation and live demos are available through our project page at https://rl.tools.
翻訳日:2024-02-27 19:39:01 公開日:2024-02-25
# Sinkhorn divergence を用いた特徴整列N-BEATS

Feature-aligned N-BEATS with Sinkhorn divergence ( http://arxiv.org/abs/2305.15196v3 )

ライセンス: Link先を確認
Joonhun Lee, Myeongho Jeon, Myungjoo Kang, Kyunghyun Park(参考訳) ドメイン一般化時系列予測モデルとして特徴整列N-BEATSを提案する。 これは N-BEATS の非自明な拡張であり、二重残留積み重ね原理 (Oreshkin et al. [45]) を表現学習フレームワークへ拡張する。 特に、各スタックにおけるN-BEATSの残基および特徴抽出作用素の複雑な組成によって引き起こされる限界特徴確率測度を中心に回転し、シンクホーン発散と呼ばれる最適な輸送距離を近似してスタックワイズに整列する。 トレーニング損失は、複数のソースドメイン、すなわち予測損失からの経験的リスク最小化と、シンクホーン発散によって計算されたアライメント損失から成り、N-BEATSの解釈可能な設計と予測能力を維持しながら、複数のソースデータシーケンスにわたって不変の特徴をスタックワイズに学習することができる。 アブレーション実験による総合的な実験的評価を行い, 提案モデルの予測と一般化能力を示す。

We propose Feature-aligned N-BEATS as a domain-generalized time series forecasting model. It is a nontrivial extension of N-BEATS with doubly residual stacking principle (Oreshkin et al. [45]) into a representation learning framework. In particular, it revolves around marginal feature probability measures induced by the intricate composition of residual and feature extracting operators of N-BEATS in each stack and aligns them stack-wise via an approximate of an optimal transport distance referred to as the Sinkhorn divergence. The training loss consists of an empirical risk minimization from multiple source domains, i.e., forecasting loss, and an alignment loss calculated with the Sinkhorn divergence, which allows the model to learn invariant features stack-wise across multiple source data sequences while retaining N-BEATS's interpretable design and forecasting power. Comprehensive experimental evaluations with ablation studies are provided and the corresponding results demonstrate the proposed model's forecasting and generalization capabilities.
翻訳日:2024-02-27 19:37:52 公開日:2024-02-25
# ファウンデーションモデルを用いたマルチモーダルWebナビゲーション

Multimodal Web Navigation with Instruction-Finetuned Foundation Models ( http://arxiv.org/abs/2305.11854v4 )

ライセンス: Link先を確認
Hiroki Furuta, Kuang-Huei Lee, Ofir Nachum, Yutaka Matsuo, Aleksandra Faust, Shixiang Shane Gu, Izzeddin Gur(参考訳) 自律型webナビゲーションの進歩は、オンライン強化学習による数十億の探索的インタラクションへの依存と、リッチなドメイン外データからの一般化の活用を困難にするドメイン固有のモデル設計によって妨げられている。 本研究では,視覚言語基礎モデルを用いたWebエージェントのオフライントレーニングについて検討する。 本稿では,WebページのスクリーンショットとHTMLページの両方を観察し,クリックやタイプなどのWebナビゲーションアクションを出力するマルチモーダルエージェントWebGUMを提案する。 WebGUMは、大規模なデモンストレーションコーパスに対して、時間的および局所的な知覚を持つ命令ファインタクテッド言語モデルとビジョンエンコーダを共同で微調整することで訓練される。 このレシピは,マルチモーダル認識,HTML理解,多段階推論といったエージェントの能力の向上を実証的に実証する。 MiniWoBでは、従来の最高のオフラインメソッドを45.8%以上改善しています。 WebShopベンチマークでは,既存のSoTAである PaLM-540B よりも3ビリオンパラメータモデルの方が優れた性能を発揮する。 さらに、WebGUMはMind2Web上の現実世界の計画タスクに強いポジティブな移行を示す。 トレーニングされたモデルを使って,347Kの高品質なデモも収集しています。

The progress of autonomous web navigation has been hindered by the dependence on billions of exploratory interactions via online reinforcement learning, and domain-specific model designs that make it difficult to leverage generalization from rich out-of-domain data. In this work, we study data-driven offline training for web agents with vision-language foundation models. We propose an instruction-following multimodal agent, WebGUM, that observes both webpage screenshots and HTML pages and outputs web navigation actions, such as click and type. WebGUM is trained by jointly finetuning an instruction-finetuned language model and a vision encoder with temporal and local perception on a large corpus of demonstrations. We empirically demonstrate this recipe improves the agent's ability of grounded multimodal perception, HTML comprehension, and multi-step reasoning, outperforming prior works by a significant margin. On the MiniWoB, we improve over the previous best offline methods by more than 45.8%, even outperforming online-finetuned SoTA, humans, and GPT-4-based agent. On the WebShop benchmark, our 3-billion-parameter model achieves superior performance to the existing SoTA, PaLM-540B. Furthermore, WebGUM exhibits strong positive transfer to the real-world planning tasks on the Mind2Web. We also collect 347K high-quality demonstrations using our trained models, 38 times larger than prior work, and make them available to promote future research in this direction.
翻訳日:2024-02-27 19:36:58 公開日:2024-02-25
# ロバスト不変表現における領域一般化

Domain Generalization In Robust Invariant Representation ( http://arxiv.org/abs/2304.03431v2 )

ライセンス: Link先を確認
Gauri Gupta, Ritvik Kapila, Keshav Gupta, Ramesh Raskar(参考訳) 共通変換に不変な表現を学習するための教師なしのアプローチは、オブジェクト認識によく使用される。 不変性の学習は、実世界のシナリオで使用するモデルをより堅牢で実用的なものにします。 オブジェクト固有の特性を変化させないデータ変換は、認識タスクの複雑さの大部分を引き起こすため、これらの変換に不変なモデルは、必要なトレーニングデータの量を減らすのに役立つ。 これによりモデルの効率が向上し、トレーニングが簡単になる。 本稿では, 分布外データ上の不変表現の一般化について検討し, 問題に答えようとする。 特定の出現した領域の変換に不変なモデル表現は, 以前は見つからなかった領域でも不変か? 広範な実験を通して、不変モデルは分布シフトに頑健な非構造的潜在表現を学習し、不変性は資源制約された環境でのトレーニングに望ましい特性であることを示す。

Unsupervised approaches for learning representations invariant to common transformations are used quite often for object recognition. Learning invariances makes models more robust and practical to use in real-world scenarios. Since data transformations that do not change the intrinsic properties of the object cause the majority of the complexity in recognition tasks, models that are invariant to these transformations help reduce the amount of training data required. This further increases the model's efficiency and simplifies training. In this paper, we investigate the generalization of invariant representations on out-of-distribution data and try to answer the question: Do model representations invariant to some transformations in a particular seen domain also remain invariant in previously unseen domains? Through extensive experiments, we demonstrate that the invariant model learns unstructured latent representations that are robust to distribution shifts, thus making invariance a desirable property for training in resource-constrained settings.
翻訳日:2024-02-27 19:35:51 公開日:2024-02-25
# AI規制におけるグローバルディバイドのブリッジ: コンテキスト、一貫性、快適なフレームワークの提案

Bridging the Global Divide in AI Regulation: A Proposal for a Contextual, Coherent, and Commensurable Framework ( http://arxiv.org/abs/2303.11196v4 )

ライセンス: Link先を確認
Sangchul Park(参考訳) 本稿では,様々な分野にわたるAI規制の現況を考察し,異なるアプローチが取られることを強調し,グローバルな分断を橋渡しするための文脈的・一貫性的・包括的(3C)フレームワークを提案する。 国連は国際的なAIガバナンスフレームワークを開発しており、G7はリスクベースのアプローチを支持しているが、詳細については合意していない。 EU、カナダ、ブラジル(そしておそらく韓国)は、AIの均質性を仮定する水平方向または横方向のアプローチに従い、共通の害原因を特定し、統一的な人間の介入を要求する。 それとは対照的に、米国、英国、イスラエル、スイス(そしておそらく中国)は、AIシステムの特定のユースケースに合わせたコンテキスト特化またはモジュラーアプローチを追求している。 EU AI Actのような水平的アプローチは、十分な比例性と予測可能性を保証するものではない。このアプローチは、さまざまなAIモデルを区別し、個別に合法化するために、高リスクなAIに対して、一大の規則を課している。 文脈固有のアプローチは、より大きな約束を持っているが、詳細、一貫性のある規制目標、および包含可能な標準に関するさらなる開発が必要である。 バランスを取るため,本稿ではハイブリッド3cフレームワークを提案する。 コンテキスト性を確保するため、このフレームワークはAIライフサイクルを2段階に分け、特定のタスクの学習と利用、そしてこれらのタスクを応用と人間との相互作用に基づいて分類する。 一貫性を確保するために、各カテゴリには規制目標が割り当てられる。 コンメンサビリティを確保するため、このフレームワークは、原則を定量的なメトリクスに変換してAIシステムに容易に統合する国際業界標準の採用を促進する。

This paper examines the current landscape of AI regulations across various jurisdictions, highlighting divergent approaches being taken, and proposes an alternative contextual, coherent, and commensurable (3C) framework to bridge the global divide. While the U.N. is developing an international AI governance framework and the G7 has endorsed a risk-based approach, there is no consensus on their details. The EU, Canada, and Brazil (and potentially South Korea) follow a horizontal or lateral approach that postulates the homogeneity of AI, seeks to identify common causes of harm, and demands uniform human interventions. In contrast, the U.S., the U.K., Israel, and Switzerland (and potentially China) have pursued a context-specific or modular approach, tailoring regulations to the specific use cases of AI systems. Horizonal approaches like the EU AI Act do not guarantee sufficient levels of proportionality and foreseeability; rather, this approach imposes a one-size-fits-all bundle of regulations on any high-risk AI, when feasible, to differentiate between various AI models and legislate them individually. The context-specific approach holds greater promise, but requires further development regarding details, coherent regulatory objectives, and commensurable standards. To strike a balance, this paper proposes a hybrid 3C framework. To ensure contextuality, the framework bifurcates the AI life cycle into two phases: learning and utilization for specific tasks; and categorizes these tasks based on their application and interaction with humans as follows: autonomous, discriminative (allocative, punitive, and cognitive), and generative AI. To ensure coherency, each category is assigned regulatory objectives. To ensure commensurability, the framework promotes the adoption of international industry standards that convert principles into quantifiable metrics to be readily integrated into AI systems.
翻訳日:2024-02-27 19:35:36 公開日:2024-02-25
# 強化学習による離散プロンプト圧縮

Discrete Prompt Compression with Reinforcement Learning ( http://arxiv.org/abs/2308.08758v2 )

ライセンス: Link先を確認
Hoyoun Jung and Kyung-Joong Kim(参考訳) 圧縮プロンプトは、コンテキストウィンドウの制限を克服し、計算コストを削減するための命令調整言語モデル(lms)を支援する。 既存のメソッドは、主にトレーニングの埋め込みに基づいているが、解釈可能性、埋め込みトークンの固定数、異なるLM間の再利用性、ブラックボックスAPIとのインタラクションにおける適用性など、さまざまな課題に直面している。 本研究では,これらの問題に対処する離散的プロンプト圧縮法であるPCRLを用いた即時圧縮を提案する。 提案手法は,プロンプトを直接編集する計算効率の良いポリシネットワークを利用する。 提案したPCRLのトレーニングアプローチは,デコーダのみとエンコーダ-デコーダアーキテクチャの両方を含む様々な種類のLMに対して柔軟に適用でき,LMやラベル付きデータへの勾配アクセスなしにトレーニングすることができる。 提案したPCRLは,各種命令プロンプトにおけるトークン数の平均24.6\%を,十分な性能を維持しつつ達成する。 さらに,学習方針をより大きなLMに移行できることを実証し,包括的分析により,プロンプト内のトークンの重要性について検討する。

Compressed prompts aid instruction-tuned language models (LMs) in overcoming context window limitations and reducing computational costs. Existing methods, which primarily based on training embeddings, face various challenges associated with interpretability, the fixed number of embedding tokens, reusability across different LMs, and inapplicability when interacting with black-box APIs. This study proposes prompt compression with reinforcement learning (PCRL), which is a discrete prompt compression method that addresses these issues. The proposed PCRL method utilizes a computationally efficient policy network that edits prompts directly. The training approach employed in the proposed PCRLs can be applied flexibly to various types of LMs, including both decoder-only and encoder-decoder architecture and it can be trained without gradient access to the LMs or labeled data. The proposed PCRL achieves an average reduction of 24.6\% in terms of the token count across various instruction prompts while maintaining sufficient performance. In addition, we demonstrate that the learned policy can be transferred to larger LMs, and through a comprehensive analysis, we explore the token importance within the prompts.
翻訳日:2024-02-27 19:29:11 公開日:2024-02-25
# テレコムのための大規模言語モデル:産業への影響を推し進める

Large Language Models for Telecom: Forthcoming Impact on the Industry ( http://arxiv.org/abs/2308.06013v2 )

ライセンス: Link先を確認
Ali Maatouk, Nicola Piovesan, Fadhel Ayed, Antonio De Domenico, Merouane Debbah(参考訳) 汎用的な言語理解と生成を実現するAI駆動型モデルであるLarge Language Models(LLMs)は、変革的な力として現れ、自然言語処理(NLP)をはるかに越え、前例のない注目を集めている。 LLM技術が発展を続けるにつれ、通信業界は、その景観への影響の見通しに直面している。 これらの意味を解明するために、私たちはLLMの内部動作を掘り下げ、現在の能力と限界について洞察を与えます。 また,通信業界で容易に実装可能なユースケースについても検討し,異常解決や技術仕様理解などのタスクを合理化し,運用効率を阻害し,有能なマンパワーと専門知識を要求する。 さらに,通信分野におけるLCMの活用の難しさに対処する重要な研究の方向性を明らかにする。 それらに対処することは、LLMの可能性をフル活用し、テレコム領域内でその能力を最大限に活用するための重要な一歩である。

Large Language Models (LLMs), AI-driven models that can achieve general-purpose language understanding and generation, have emerged as a transformative force, revolutionizing fields well beyond Natural Language Processing (NLP) and garnering unprecedented attention. As LLM technology continues to progress, the telecom industry is facing the prospect of its impact on its landscape. To elucidate these implications, we delve into the inner workings of LLMs, providing insights into their current capabilities and limitations. We also examine the use cases that can be readily implemented in the telecom industry, streamlining tasks, such as anomalies resolutions and technical specifications comprehension, which currently hinder operational efficiency and demand significant manpower and expertise. Furthermore, we uncover essential research directions that deal with the distinctive challenges of utilizing the LLMs within the telecom domain. Addressing them represents a significant stride towards fully harnessing the potential of LLMs and unlocking their capabilities to the fullest extent within the telecom domain.
翻訳日:2024-02-27 19:28:32 公開日:2024-02-25
# AIの規制: 行動経済学と心理学からの洞察をEU AI法第5条の適用に適用すること

Regulating AI: Applying insights from behavioural economics and psychology to the application of article 5 of the EU AI Act ( http://arxiv.org/abs/2308.02041v2 )

ライセンス: Link先を確認
Huixin Zhong, Eamonn O'Neill, Janina A. Hoffmann(参考訳) 欧州連合の人工知能法第5条は、潜在的に有害な結果を防ぐためにAIの使用を規制することを目的としている。 それでも、この法律を実際に適用することは、あいまいに使用される用語と、aiによって呼び出される操作テクニックを特定できず、潜在的に重大な危害をもたらす可能性があるため、困難である可能性が高い。 本稿では,このギャップを埋めるために,重要な用語を定義し,aiがこれらの手法をどのように呼び出すのかを実証し,心理学や行動経済学の洞察を引き出す。 まず,「サブリミナル・テクニック」,「マニピュティブ・テクニック」,「認知的テクニック」という用語を定義した。 次に,認知心理学と行動経済学の文献から3つのサブリミナル手法と5つのマニピュレーション手法を特定し,現実世界のシナリオにおいて,aiがユーザを操作するためにこれらの手法をどのように実装するかを例示する。 これらの図は、ステークホルダーがAI操作のケースを検出し、結果として予防措置を考案するための実践的なガイドとして機能するかもしれない。 第5条は不適切な保護を提供していると批判されている。 第五条の規定による保護を批判的に評価し,第一項の点に対する特定の改正を提案する。 (a)及び b) 保護効果を高めるため第五条の規定

Article 5 of the European Union's Artificial Intelligence Act is intended to regulate AI use to prevent potentially harmful consequences. Nevertheless, applying this legislation practically is likely to be challenging because of ambiguously used terminologies and because it fails to specify which manipulation techniques may be invoked by AI, potentially leading to significant harm. This paper aims to bridge this gap by defining key terms and demonstrating how AI may invoke these techniques, drawing from insights in psychology and behavioural economics. First, this paper provides definitions of the terms "subliminal techniques", "manipulative techniques" and "deceptive techniques". Secondly, we identified from the literature in cognitive psychology and behavioural economics three subliminal and five manipulative techniques and exemplify how AI might implement these techniques to manipulate users in real-world case scenarios. These illustrations may serve as a practical guide for stakeholders to detect cases of AI manipulation and consequently devise preventive measures. Article 5 has also been criticised for offering inadequate protection. We critically assess the protection offered by Article 5, proposing specific revisions to paragraph 1, points (a) and (b) of Article 5 to increase its protective effectiveness.
翻訳日:2024-02-27 19:27:57 公開日:2024-02-25
# 計画、長い文脈理解、プログラム合成を備えた現実世界のウェブエージェント

A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis ( http://arxiv.org/abs/2307.12856v4 )

ライセンス: Link先を確認
Izzeddin Gur, Hiroki Furuta, Austin Huang, Mustafa Safdari, Yutaka Matsuo, Douglas Eck, Aleksandra Faust(参考訳) 事前訓練された大規模言語モデル(LLM)は、最近、自律Web自動化におけるより優れた一般化とサンプル効率を実現している。 しかし,実世界のWebサイトのパフォーマンスは,(1)オープンドメイン性,(2)コンテキスト長の制限,(3)HTMLの帰納バイアスの欠如に悩まされている。 webagentは、自然言語命令に従う実際のwebサイト上で、自己経験からタスクを完了するために学習するllm駆動エージェントである。 WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、それらから生成されたPythonプログラムを介してウェブサイトで動作させることを計画している。 We design WebAgent with Flan-U-PaLM, for grounded code generation, and HTML-T5, new pre-trained LLMs for long HTML document using local and global attention mechanism and a mixture of long-span denoising objectives, for planning and summarization。 我々は、我々のモジュラーレシピが実際のWebサイトの成功率を50%以上改善し、HTML-T5が様々なHTML理解タスクを解く最良のモデルであること、MiniWoBのWebオートメーションベンチマークにおける従来の手法よりも18.7%高い成功率、オフラインタスク計画評価であるMind2WebでのSoTAパフォーマンスを実証的に示す。

Pre-trained large language models (LLMs) have recently achieved better generalization and sample efficiency in autonomous web automation. However, the performance on real-world websites has still suffered from (1) open domainness, (2) limited context length, and (3) lack of inductive bias on HTML. We introduce WebAgent, an LLM-driven agent that learns from self-experience to complete tasks on real websites following natural language instructions. WebAgent plans ahead by decomposing instructions into canonical sub-instructions, summarizes long HTML documents into task-relevant snippets, and acts on websites via Python programs generated from those. We design WebAgent with Flan-U-PaLM, for grounded code generation, and HTML-T5, new pre-trained LLMs for long HTML documents using local and global attention mechanisms and a mixture of long-span denoising objectives, for planning and summarization. We empirically demonstrate that our modular recipe improves the success on real websites by over 50%, and that HTML-T5 is the best model to solve various HTML understanding tasks; achieving 18.7% higher success rate than the prior method on MiniWoB web automation benchmark, and SoTA performance on Mind2Web, an offline task planning evaluation.
翻訳日:2024-02-27 19:27:35 公開日:2024-02-25
# ディープラーニングによる慣性ナビゲーションの現状と今後の方向性

Inertial Navigation Meets Deep Learning: A Survey of Current Trends and Future Directions ( http://arxiv.org/abs/2307.00014v2 )

ライセンス: Link先を確認
Nadav Cohen and Itzik Klein(参考訳) 慣性センシングは、スマートフォンのような日々のデバイスから、自動運転車のような非常に複雑なデバイスまで、多くのアプリケーションやプラットフォームで使われている。 近年,慣性センシングやセンサ融合の分野において,機械学習やディープラーニング技術の発展が顕著に進んでいる。 これは、効率的なコンピューティングハードウェアの開発と、公開されているセンサデータのアクセシビリティが原因である。 データ駆動型アプローチは主にモデルに基づく慣性センシングアルゴリズムを強化することを目的としている。 慣性航法・融合とディープラーニングの統合に関するさらなる研究を奨励し,その能力を活用すべく,慣性センシングとセンサフュージョンのための深層学習手法の詳細なレビューを行う。 本稿では,キャリブレーションとデノイジングのための学習手法と,純粋慣性ナビゲーションとセンサ融合の改善手法について考察する。 後者は、フュージョンフィルタパラメータのいくつかを学ぶことで実現される。 レビューされたアプローチは、車両が運転する環境(陸、空、海)によって分類される。 さらに,深層学習に基づくナビゲーションにおけるトレンドと今後の方向性を分析し,一般的な手法に関する統計データを提供する。

Inertial sensing is used in many applications and platforms, ranging from day-to-day devices such as smartphones to very complex ones such as autonomous vehicles. In recent years, the development of machine learning and deep learning techniques has increased significantly in the field of inertial sensing and sensor fusion. This is due to the development of efficient computing hardware and the accessibility of publicly available sensor data. These data-driven approaches mainly aim to empower model-based inertial sensing algorithms. To encourage further research in integrating deep learning with inertial navigation and fusion and to leverage their capabilities, this paper provides an in-depth review of deep learning methods for inertial sensing and sensor fusion. We discuss learning methods for calibration and denoising as well as approaches for improving pure inertial navigation and sensor fusion. The latter is done by learning some of the fusion filter parameters. The reviewed approaches are classified by the environment in which the vehicles operate: land, air, and sea. In addition, we analyze trends and future directions in deep learning-based navigation and provide statistical data on commonly used approaches.
翻訳日:2024-02-27 19:26:02 公開日:2024-02-25
# 順序保存型GFlowNets

Order-Preserving GFlowNets ( http://arxiv.org/abs/2310.00386v2 )

ライセンス: Link先を確認
Yihang Chen, Lukas Mauch(参考訳) Generative Flow Networks (GFlowNets) は、与えられた報酬に比例した確率を持つ様々な候補をサンプリングする方法として導入された。 しかし、GFlowNetsは、例えばマルチオブジェクト最適化(MOO)タスクの場合、計算コストがかかるか直接アクセスできないかのいずれかで、事前に定義されたスカラー報酬でのみ使用できる。 さらに、上位候補の特定を優先するために、従来の手法では、異なる環境にまたがる最適な選択である、より高い指数に対する報酬を上げる。 これらの問題に対処するため,提案手法では,学習報酬関数に比例する確率で,候補に与えられた(部分的な)順序と一致し,報酬関数の明示的な定式化を不要とした順序保存型gflownets(op-gfns)を提案する。 我々は,OP-GFNの学習過程が,単目的最大化タスクにおいて学習された報酬の景観を徐々に分散させることを理論的に証明する。 スパシフィケーションは、順序付けにおける上位階層の候補に集中し、開始時の探索を確実にし、訓練の終了に向けて搾取する。 OP-GFNの最先端性能を,合成データセット,分子生成,ニューラルアーキテクチャ探索など,単目的最大化(totally order)および多目的パレートフロント近似(partial order)タスクで実証する。

Generative Flow Networks (GFlowNets) have been introduced as a method to sample a diverse set of candidates with probabilities proportional to a given reward. However, GFlowNets can only be used with a predefined scalar reward, which can be either computationally expensive or not directly accessible, in the case of multi-objective optimization (MOO) tasks for example. Moreover, to prioritize identifying high-reward candidates, the conventional practice is to raise the reward to a higher exponent, the optimal choice of which may vary across different environments. To address these issues, we propose Order-Preserving GFlowNets (OP-GFNs), which sample with probabilities in proportion to a learned reward function that is consistent with a provided (partial) order on the candidates, thus eliminating the need for an explicit formulation of the reward function. We theoretically prove that the training process of OP-GFNs gradually sparsifies the learned reward landscape in single-objective maximization tasks. The sparsification concentrates on candidates of a higher hierarchy in the ordering, ensuring exploration at the beginning and exploitation towards the end of the training. We demonstrate OP-GFN's state-of-the-art performance in single-objective maximization (totally ordered) and multi-objective Pareto front approximation (partially ordered) tasks, including synthetic datasets, molecule generation, and neural architecture search.
翻訳日:2024-02-27 19:19:55 公開日:2024-02-25
# 医用画像における一般移動物体分割の基礎モデル

A Foundation Model for General Moving Object Segmentation in Medical Images ( http://arxiv.org/abs/2309.17264v4 )

ライセンス: Link先を確認
Zhongnuo Yan, Tong Han, Yuhao Huang, Lian Liu, Han Zhou, Jiongquan Chen, Wenlong Shi, Yan Cao, Xin Yang, Dong Ni(参考訳) 医用画像分割は, 臨床診断において重要な役割を担い, 解剖学的, 病理学的構造を明らかにすることを目的としている。 高精度の深部セグメンテーションモデルを構築するためには,高品質なアノテートデータが多く重要である。 しかし、医療アノテーションは、特に医療ビデオや3Dボリュームでは、巨大なラベル付けスペースとフレーム間の一貫性の欠如のため、非常に面倒で時間を要する。 近年,移動物体分割(MOS)という基本課題が自然画像に大きく進展している。 その目的は、最小限のアノテーションしか必要とせず、画像シーケンス内の背景から動くオブジェクトをデラインすることである。 本稿では,医療画像におけるMOSのための基礎モデルiMOSを提案する。 大規模マルチモーダル医療データセットに関する広範な実験により、提案するimosの有効性が検証された。 具体的には、シーケンス内の少数の画像のみをアノテーションすることで、imosは双方向で、シーケンス全体にわたって動くオブジェクトの十分なトラッキングとセグメンテーション性能を実現することができる。 提案したiMOSが専門家のアノテーションのスピードを加速し、医療基盤モデルの開発を促進することを願っている。

Medical image segmentation aims to delineate the anatomical or pathological structures of interest, playing a crucial role in clinical diagnosis. A substantial amount of high-quality annotated data is crucial for constructing high-precision deep segmentation models. However, medical annotation is highly cumbersome and time-consuming, especially for medical videos or 3D volumes, due to the huge labeling space and poor inter-frame consistency. Recently, a fundamental task named Moving Object Segmentation (MOS) has made significant advancements in natural images. Its objective is to delineate moving objects from the background within image sequences, requiring only minimal annotations. In this paper, we propose the first foundation model, named iMOS, for MOS in medical images. Extensive experiments on a large multi-modal medical dataset validate the effectiveness of the proposed iMOS. Specifically, with the annotation of only a small number of images in the sequence, iMOS can achieve satisfactory tracking and segmentation performance of moving objects throughout the entire sequence in bi-directions. We hope that the proposed iMOS can help accelerate the annotation speed of experts, and boost the development of medical foundation models.
翻訳日:2024-02-27 19:19:27 公開日:2024-02-25
# Transformer-VQ:ベクトル量子化による線形時間変換器

Transformer-VQ: Linear-Time Transformers via Vector Quantization ( http://arxiv.org/abs/2309.16354v2 )

ライセンス: Link先を確認
Lucas D. Lingle(参考訳) 本稿では,デコーダのみの変換器であるTransformer-VQを紹介する。 Transformer-VQの効率的な注意力はベクトル量子化キーと新しいキャッシュ機構によって実現される。 大規模実験では、Transformer-VQ は Enwik8 では 0.99 bpb、PG-19 では 26.6 ppl、ImageNet64 では 3.16 bpb である。 さらに、transformer-vqの最適化実装は、シーケンス長8kの同等の二次時変圧器よりも3倍高速であり、32kで12倍高速であり、同様のスループットで131kまで拡張できる。 コード: \url{https://github.com/transformer-vq/transformer_vq}

We introduce Transformer-VQ, a decoder-only transformer computing softmax-based dense self-attention in linear time. Transformer-VQ's efficient attention is enabled by vector-quantized keys and a novel caching mechanism. In our large-scale experiments, Transformer-VQ is shown highly competitive in quality, obtaining 0.99 bpb on Enwik8, 26.6 ppl on PG-19, and 3.16 bpb on ImageNet64. In addition, the optimized implementation of Transformer-VQ is over 3x faster than a comparable quadratic-time transformer at sequence length 8k, is over 12x faster at 32k, and can scale to 131k with similar throughput. Code available: \url{https://github.com/transformer-vq/transformer_vq}
翻訳日:2024-02-27 19:19:08 公開日:2024-02-25
# 芸術か芸術か? 大規模言語モデルと創造性の誤った約束

Art or Artifice? Large Language Models and the False Promise of Creativity ( http://arxiv.org/abs/2309.14556v2 )

ライセンス: Link先を確認
Tuhin Chakrabarty, Philippe Laban, Divyansh Agarwal, Smaranda Muresan, Chien-Sheng Wu(参考訳) 研究者は、大きな言語モデル(LLM)はブログからストーリーまで高品質な書き込み能力を示すと主張している。 しかし、書物の創造性を客観的に評価することは困難である。 創造性をプロセスとして測定するTTCT(Torrance Test of Creative Thinking)に触発され,Consensual Assessment Technique[3]を使用し,創造性を製品として評価するTorrance Test of Creative Writing(TTCW)を提案する。 TTCWは14のバイナリテストで構成されており、Fluency、Flexibility、Originality、Elaborationの3次元に分かれている。 10人のクリエイティビティライターを募集し、プロの作家やTLCWを用いたLLMによって書かれた48のストーリーの人間評価を実装した。 分析の結果,LPM生成したストーリーはプロのストーリーよりもTTCWが3~10倍少ないことがわかった。 さらに,TLCW評価を自動化するための評価器としてのLCMの利用について検討し,いずれも専門家評価と有意な相関関係がないことを明らかにした。

Researchers have argued that large language models (LLMs) exhibit high-quality writing capabilities from blogs to stories. However, evaluating objectively the creativity of a piece of writing is challenging. Inspired by the Torrance Test of Creative Thinking (TTCT), which measures creativity as a process, we use the Consensual Assessment Technique [3] and propose the Torrance Test of Creative Writing (TTCW) to evaluate creativity as a product. TTCW consists of 14 binary tests organized into the original dimensions of Fluency, Flexibility, Originality, and Elaboration. We recruit 10 creative writers and implement a human assessment of 48 stories written either by professional authors or LLMs using TTCW. Our analysis shows that LLM-generated stories pass 3-10X less TTCW tests than stories written by professionals. In addition, we explore the use of LLMs as assessors to automate the TTCW evaluation, revealing that none of the LLMs positively correlate with the expert assessments.
翻訳日:2024-02-27 19:18:53 公開日:2024-02-25
# グラフニューラルネットワークはグラフを使うべきでないとき

Graph Neural Networks Use Graphs When They Shouldn't ( http://arxiv.org/abs/2309.04332v2 )

ライセンス: Link先を確認
Maya Bechler-Speicher, Ido Amos, Ran Gilad-Bachrach, Amir Globerson(参考訳) グラフの予測は、ソーシャルネットワークや医療など、さまざまな領域において重要な役割を果たす。 グラフニューラルネットワーク(GNN)は,グラフデータの学習において主流のアプローチである。 グラフ構造はGNNへの入力として提供されるが、場合によっては無視することで最良の解が得られる。 このような場合、GNNはグラフ構造を無視する能力を持っているが、それらがそうするかどうかは明らかではない。 本研究では,GNNが与えられたグラフ構造に適合する傾向があることを示す。 すなわち、それを無視してより良い解が得られる場合でも使用する。 我々はGNNの勾配差学習の暗黙バイアスを分析し、基底真理関数がグラフを使用しない場合、GNNは無限のデータであってもグラフを無視した解を学ぶことが保証されないことを証明した。 この現象を異なるグラフ分布に関して検討し、正規グラフがこの過度な適合に対してより堅牢であることを示す。 また、正規グラフの族において、GNNは勾配勾配で学習する際に外挿することを保証している。 最後に, 実験的および理論的知見に基づいて, グラフ過収率の低減と性能向上のために, 正規グラフをどのように活用するかを実データで示す。

Predictions over graphs play a crucial role in various domains, including social networks and medicine. Graph Neural Networks (GNNs) have emerged as the dominant approach for learning on graph data. Although a graph-structure is provided as input to the GNN, in some cases the best solution can be obtained by ignoring it. While GNNs have the ability to ignore the graph- structure in such cases, it is not clear that they will. In this work, we show that GNNs actually tend to overfit the given graph-structure. Namely, they use it even when a better solution can be obtained by ignoring it. We analyze the implicit bias of gradient-descent learning of GNNs and prove that when the ground truth function does not use the graphs, GNNs are not guaranteed to learn a solution that ignores the graph, even with infinite data. We examine this phenomenon with respect to different graph distributions and find that regular graphs are more robust to this over-fitting. We also prove that within the family of regular graphs, GNNs are guaranteed to extrapolate when learning with gradient descent. Finally, based on our empirical and theoretical findings, we demonstrate on real-data how regular graphs can be leveraged to reduce graph overfitting and enhance performance.
翻訳日:2024-02-27 19:16:26 公開日:2024-02-25
# 監督・罰則ベースライン補正

Supervised and Penalized Baseline Correction ( http://arxiv.org/abs/2310.18306v3 )

ライセンス: Link先を確認
Erik Andries, Ramin Nikzad-Langerodi(参考訳) 分光測定は、吸収と散乱の混合から生じる歪んだスペクトル形状を示すことができる。 これらの歪み(またはベースライン)は、しばしば非定常オフセットまたは低周波振動として現れる。 その結果、これらのベースラインは分析的および定量的な結果に悪影響を及ぼす可能性がある。 ベースライン補正(baseline correction)は、ベースラインスペクトル(望ましくない歪み)を得るために前処理法を適用し、その歪みを差分によって除去する包括的用語である。 しかし, 現状技術ベースライン補正法では, 可利用でも, 観測されたスペクトル変動に大きく寄与しても, 分析液濃度は利用されない。 我々は最先端の手法(ペナルドベースライン補正)のクラスを調べ,予測が強化されるように事前のアナライト濃度に対応できるように修正する。 性能は、古典的なペナライズドベースライン補正法(アナライト情報なし)と修正ペナライトベースライン補正法(アナライト情報平均化)の2つの近赤外線データセットで評価される。

Spectroscopic measurements can show distorted spectral shapes arising from a mixture of absorbing and scattering contributions. These distortions (or baselines) often manifest themselves as non-constant offsets or low-frequency oscillations. As a result, these baselines can adversely affect analytical and quantitative results. Baseline correction is an umbrella term where one applies pre-processing methods to obtain baseline spectra (the unwanted distortions) and then remove the distortions by differencing. However, current state-of-the art baseline correction methods do not utilize analyte concentrations even if they are available, or even if they contribute significantly to the observed spectral variability. We examine a class of state-of-the-art methods (penalized baseline correction) and modify them such that they can accommodate a priori analyte concentrations such that prediction can be enhanced. Performance will be assessed on two near infra-red data sets across both classical penalized baseline correction methods (without analyte information) and modified penalized baseline correction methods (leveraging analyte information).
翻訳日:2024-02-27 19:10:54 公開日:2024-02-25
# 大規模言語モデルにおける関数ベクトル

Function Vectors in Large Language Models ( http://arxiv.org/abs/2310.15213v2 )

ライセンス: Link先を確認
Eric Todd, Millicent L. Li, Arnab Sen Sharma, Aaron Mueller, Byron C. Wallace, David Bau(参考訳) 自己回帰的トランスフォーマー言語モデル(lms)における入力出力関数をベクトルとして表現する単純な神経機構の存在を報告する。 多様なコンテキスト内学習(ICL)タスクの因果媒介分析を用いて、少数の注意ヘッドがデモされたタスクのコンパクトな表現を伝達し、関数ベクトル(FV)と呼ぶ。 fvsはコンテキストの変化に対して堅牢である。すなわち、収集したiclコンテキストに似ていないゼロショットや自然テキストの設定などの入力に対して、タスクの実行をトリガーする。 さまざまなタスク、モデル、レイヤにわたってFVをテストし、中間層の設定に対して強力な因果効果を見つけます。 我々はFVの内部構造を調査し、関数の出力空間を符号化する情報をしばしば含んでいるが、この情報だけではFVを再構築するには不十分である。 最後に、fvsで意味ベクトル合成をテストし、それらがある程度要約されて、新しい複雑なタスクをトリガーするベクトルを生成することができることを見出します。 この結果から,LLMから関数抽象のコンパクトな因果ベクトル表現を抽出できることが示唆された。 私たちのコードとデータはhttps://functions.baulab.infoで利用可能です。

We report the presence of a simple neural mechanism that represents an input-output function as a vector within autoregressive transformer language models (LMs). Using causal mediation analysis on a diverse range of in-context-learning (ICL) tasks, we find that a small number attention heads transport a compact representation of the demonstrated task, which we call a function vector (FV). FVs are robust to changes in context, i.e., they trigger execution of the task on inputs such as zero-shot and natural text settings that do not resemble the ICL contexts from which they are collected. We test FVs across a range of tasks, models, and layers and find strong causal effects across settings in middle layers. We investigate the internal structure of FVs and find while that they often contain information that encodes the output space of the function, this information alone is not sufficient to reconstruct an FV. Finally, we test semantic vector composition in FVs, and find that to some extent they can be summed to create vectors that trigger new complex tasks. Our findings show that compact, causal internal vector representations of function abstractions can be explicitly extracted from LLMs. Our code and data are available at https://functions.baulab.info.
翻訳日:2024-02-27 19:10:36 公開日:2024-02-25
# カラー化によるLiDARを用いた3次元物体検出装置

Pre-Training LiDAR-Based 3D Object Detectors Through Colorization ( http://arxiv.org/abs/2310.14592v2 )

ライセンス: Link先を確認
Tai-Yu Pan, Chenyang Ma, Tianle Chen, Cheng Perng Phoo, Katie Z Luo, Yurong You, Mark Campbell, Kilian Q. Weinberger, Bharath Hariharan, and Wei-Lun Chao(参考訳) 自動運転車の正確な3Dオブジェクト検出と理解は、LiDARの点雲に大きく依存し、大量のラベル付きデータを訓練する必要がある。 本研究では,データとラベルのギャップを埋める,革新的な事前学習手法であるGPCを導入し,LiDAR点雲のカラー化をモデルに教え,有意義な意味的手がかりを取り入れた。 色変化と選択バイアスから生じる課題に対処するため,着色時のヒントとして接地色を提供することにより,色を「コンテキスト」として取り入れる。 KITTIとWaymoのデータセットの実験結果は、GPCの顕著な効果を示している。 特に、KITTIデータセットの20%で、GPCはデータセット全体のスクラッチからトレーニングに優れています。 要約すると,3次元物体検出のための事前学習の新たな視点を導入し,目的をモデルの役割と整合させ,最終的には自動運転車における3次元物体検出の精度と効率を向上させる。

Accurate 3D object detection and understanding for self-driving cars heavily relies on LiDAR point clouds, necessitating large amounts of labeled data to train. In this work, we introduce an innovative pre-training approach, Grounded Point Colorization (GPC), to bridge the gap between data and labels by teaching the model to colorize LiDAR point clouds, equipping it with valuable semantic cues. To tackle challenges arising from color variations and selection bias, we incorporate color as "context" by providing ground-truth colors as hints during colorization. Experimental results on the KITTI and Waymo datasets demonstrate GPC's remarkable effectiveness. Even with limited labeled data, GPC significantly improves fine-tuning performance; notably, on just 20% of the KITTI dataset, GPC outperforms training from scratch with the entire dataset. In sum, we introduce a fresh perspective on pre-training for 3D object detection, aligning the objective with the model's intended role and ultimately advancing the accuracy and efficiency of 3D object detection for autonomous vehicles.
翻訳日:2024-02-27 19:10:15 公開日:2024-02-25
# 大規模言語モデルを用いたバイリンガル語彙誘導について

On Bilingual Lexicon Induction with Large Language Models ( http://arxiv.org/abs/2310.13995v2 )

ライセンス: Link先を確認
Yaoyiran Li, Anna Korhonen, Ivan Vuli\'c(参考訳) バイリンガル辞書誘導(BLI)は、多言語NLPの中核的なタスクであり、依然として言語間単語表現の計算に大きく依存している。 NLPのLarge Language Models(LLMs)へのパラダイムシフトに着想を得て,両言語レキシコンの開発に向けた次世代LLMの可能性を検討する。 bliのための多言語llm(mllms)を迅速かつ微調整することは可能か、このアプローチは現在のbliアプローチとどのように比較し補完するか? この目的のために 体系的に研究し 1)非監督的BLIとゼロショットプロンプト 2)llmを微調整することなく,一組のシード翻訳ペアでプロンプトする数発のインコンテキスト 3) 小型LLMの標準BLI微調整 異なるサイズ(0.3Bから13Bパラメータ)の18個のオープンソーステキスト・テキスト・テキストmLLMを2つの標準BLIベンチマークで実験した。 私たちの仕事は、テキストからテキストへのmLLMの強力なBLI機能を示す最初のものです。 その結果,近辺からの文脈内サンプルによる撮影は,多くの言語ペアに対して,最先端のBLIスコアを新たに確立し,最高のパフォーマンスを得ることができた。 また,BLIと(m)LLMを併用した深部分析およびアブレーション研究も実施し,その限界についても考察した。

Bilingual Lexicon Induction (BLI) is a core task in multilingual NLP that still, to a large extent, relies on calculating cross-lingual word representations. Inspired by the global paradigm shift in NLP towards Large Language Models (LLMs), we examine the potential of the latest generation of LLMs for the development of bilingual lexicons. We ask the following research question: Is it possible to prompt and fine-tune multilingual LLMs (mLLMs) for BLI, and how does this approach compare against and complement current BLI approaches? To this end, we systematically study 1) zero-shot prompting for unsupervised BLI and 2) few-shot in-context prompting with a set of seed translation pairs, both without any LLM fine-tuning, as well as 3) standard BLI-oriented fine-tuning of smaller LLMs. We experiment with 18 open-source text-to-text mLLMs of different sizes (from 0.3B to 13B parameters) on two standard BLI benchmarks covering a range of typologically diverse languages. Our work is the first to demonstrate strong BLI capabilities of text-to-text mLLMs. The results reveal that few-shot prompting with in-context examples from nearest neighbours achieves the best performance, establishing new state-of-the-art BLI scores for many language pairs. We also conduct a series of in-depth analyses and ablation studies, providing more insights on BLI with (m)LLMs, also along with their limitations.
翻訳日:2024-02-27 19:09:55 公開日:2024-02-25
# エントロピー規則化RLとしての生成フローネットワーク

Generative Flow Networks as Entropy-Regularized RL ( http://arxiv.org/abs/2310.12934v3 )

ライセンス: Link先を確認
Daniil Tiapkin, Nikita Morozov, Alexey Naumov, Dmitry Vetrov(参考訳) 最近提案された生成フローネットワーク(GFlowNets)は、一連のアクションを通して与えられた報酬に比例する確率を持つ合成離散オブジェクトをサンプリングするポリシーを訓練する手法である。 GFlowNetsはこの問題のシーケンシャルな性質を利用し、強化学習(RL)と平行に描画する。 我々の研究は、RL と GFlowNets の接続を一般的なケースに拡張する。 生成フローネットワークを学習するタスクを,特定の報酬と正規化器構造を持つエントロピー規則化RL問題として効率的に再定義できることを示す。 さらに,複数の確率的モデリングタスクにわたるgflownetトレーニングに標準ソフトrlアルゴリズムを適用することで,この再構成の実用的効率を示す。 先に報告した結果とは対照的に,エントロピー的RLアプローチは,既存のGFlowNetトレーニング手法と競合する可能性がある。 この観点は、生成フローネットワークの領域にRL原理を統合する直接的な道を開く。

The recently proposed generative flow networks (GFlowNets) are a method of training a policy to sample compositional discrete objects with probabilities proportional to a given reward via a sequence of actions. GFlowNets exploit the sequential nature of the problem, drawing parallels with reinforcement learning (RL). Our work extends the connection between RL and GFlowNets to a general case. We demonstrate how the task of learning a generative flow network can be efficiently redefined as an entropy-regularized RL problem with a specific reward and regularizer structure. Furthermore, we illustrate the practical efficiency of this reformulation by applying standard soft RL algorithms to GFlowNet training across several probabilistic modeling tasks. Contrary to previously reported results, we show that entropic RL approaches can be competitive against established GFlowNet training methods. This perspective opens a direct path for integrating RL principles into the realm of generative flow networks.
翻訳日:2024-02-27 19:09:32 公開日:2024-02-25
# 大規模言語モデルにおける幻覚のリアルタイム検証と再現

Ever: Mitigating Hallucination in Large Language Models through Real-Time Verification and Rectification ( http://arxiv.org/abs/2311.09114v2 )

ライセンス: Link先を確認
Haoqiang Kang, Juntong Ni, Huaxiu Yao(参考訳) 大規模言語モデル(llm)は、流麗なテキストの生成に著しく熟練している。 しかし、しばしば不正確なあるいは幻覚的なコンテンツを生成するという課題に遭遇する。 この問題は、非リトライバル型世代と検索型世代の両方で一般的であり、既存のポストホック整流法は、特に推論タスクにおいて「雪玉」問題によって引き起こされる可能性のある累積幻覚エラーに対応できない可能性がある。 これらの課題に取り組むために,我々はリアルタイム検証と修正(ever)と呼ばれる新しいアプローチを導入する。 幻覚を正すための生成プロセスの終わりまで待つ代わりに、everはリアルタイム、ステップワイズ、幻覚正す戦略を採用している。 主な目的は、テキスト生成プロセス中に発生する幻覚を検出し、修正することである。 検索ベースと非検索ベースの両方と比較して、Everは、ショートフォームのQA、伝記生成、マルチホップ推論など、さまざまなタスクにおいて、信頼性と現実的に正確なテキストを生成する上で、大幅な改善を示している。

Large Language Models (LLMs) have demonstrated remarkable proficiency in generating fluent text. However, they often encounter the challenge of generating inaccurate or hallucinated content. This issue is common in both non-retrieval-based generation and retrieval-augmented generation approaches, and existing post-hoc rectification methods may not address the accumulated hallucination errors that may be caused by the "snowballing" issue, especially in reasoning tasks. To tackle these challenges, we introduce a novel approach called Real-time Verification and Rectification (Ever). Instead of waiting until the end of the generation process to rectify hallucinations, Ever employs a real-time, step-wise generation and hallucination rectification strategy. The primary objective is to detect and rectify hallucinations as they occur during the text generation process. When compared to both retrieval-based and non-retrieval-based baselines, Ever demonstrates a significant improvement in generating trustworthy and factually accurate text across a diverse range of tasks, including short-form QA, biography generation, and multi-hop reasoning.
翻訳日:2024-02-27 18:58:58 公開日:2024-02-25
# マルチステップ推論における解答校正の一考察

Towards A Unified View of Answer Calibration for Multi-Step Reasoning ( http://arxiv.org/abs/2311.09101v2 )

ライセンス: Link先を確認
Shumin Deng, Ningyu Zhang, Nay Oo, Bryan Hooi(参考訳) CoT(Chain-of-Thought)をプロンプトする大規模言語モデル(LLM)は、多段階推論機能の改善の範囲を広げた。 一般に、多段階推論を2つのフェーズに分けて、推論パスを生成する経路生成と、推論パスのキャリブレーション後処理を行い、最終的な答えを得る。 しかし,既存の文献では,異なる回答校正手法に関する系統的分析が欠如している。 本稿では,最近の回答校正手法の分類を要約し,ステップレベルおよびパスレベル戦略に分類する。 次に,複数の経路にまたがるステップレベルおよびパスレベルの応答校正を体系的に精査し,統一的な視点からこれらの戦略を徹底的に評価する。 実験の結果,両戦略の優位の統合が最適結果を引き出す傾向があることが明らかとなった。 本研究は,解答校正による多段階推論を最適化するための重要な洞察を照らす可能性を持っている。

Large Language Models (LLMs) employing Chain-of-Thought (CoT) prompting have broadened the scope for improving multi-step reasoning capabilities. We generally divide multi-step reasoning into two phases: path generation to generate the reasoning path(s); and answer calibration post-processing the reasoning path(s) to obtain a final answer. However, the existing literature lacks systematic analysis on different answer calibration approaches. In this paper, we summarize the taxonomy of recent answer calibration techniques and break them down into step-level and path-level strategies. We then conduct a thorough evaluation on these strategies from a unified view, systematically scrutinizing step-level and path-level answer calibration across multiple paths. Experimental results reveal that integrating the dominance of both strategies tends to derive optimal outcomes. Our study holds the potential to illuminate key insights for optimizing multi-step reasoning with answer calibration.
翻訳日:2024-02-27 18:58:38 公開日:2024-02-25
# 著者帰属モデルは音声文中の話者を区別できるか?

Can Authorship Attribution Models Distinguish Speakers in Speech Transcripts? ( http://arxiv.org/abs/2311.07564v2 )

ライセンス: Link先を確認
Cristina Aggazzotti, Nicholas Andrews, Elizabeth Allyn Smith(参考訳) 著者検証は、2つの異なる文章サンプルが同じ著者を共有しているかどうかを判断するタスクであり、典型的には文章の帰属に関係している。 本稿では,新たな課題を提起する書き起こし音声の属性について考察する。 主な課題は、句読点や資本化のような多くのスタイル的特徴がこの設定では意味を持たないことである。 一方、転写された音声は、異なる話者の特徴であるフィラー語やバックチャネル(例えば「um」や「uh-huh」)といった他のパターンを示す。 会話音声の書き起こしに着目した話者属性のための新しいベンチマークを提案する。 トピックと話者の多彩な関連を制限するために,会話プロンプトと同一会話に参加している話者の両方を用いて,さまざまな困難に対する検証試験を行う。 我々は、この新しいベンチマークで、ニューラルネットワークと非ニューラルネットワークのベースラインを比較して、テキスト属性モデルが特定の設定で驚くほど優れたパフォーマンスを達成しているにもかかわらず、会話トピック情報がますます制御されるにつれて、顕著にパフォーマンスが悪化していることを見出した。 本稿では,文字の書き起こしスタイルがパフォーマンスに与える影響と,音声の書き起こしを微調整して性能を向上させる能力について述べる。

Authorship verification is the task of determining if two distinct writing samples share the same author and is typically concerned with the attribution of written text. In this paper, we explore the attribution of transcribed speech, which poses novel challenges. The main challenge is that many stylistic features, such as punctuation and capitalization, are not informative in this setting. On the other hand, transcribed speech exhibits other patterns, such as filler words and backchannels (e.g., 'um', 'uh-huh'), which may be characteristic of different speakers. We propose a new benchmark for speaker attribution focused on conversational speech transcripts. To limit spurious associations of speakers with topic, we employ both conversation prompts and speakers participating in the same conversation to construct verification trials of varying difficulties. We establish the state of the art on this new benchmark by comparing a suite of neural and non-neural baselines, finding that although written text attribution models achieve surprisingly good performance in certain settings, they perform markedly worse as conversational topic information is increasingly controlled. We present analyses of the impact of transcription style on performance as well as the ability of fine-tuning on speech transcripts to improve performance.
翻訳日:2024-02-27 18:58:00 公開日:2024-02-25
# 人々がより良い編集を行う: 有害言語検出のためのLLM生成逆拡張データの有効性の測定

People Make Better Edits: Measuring the Efficacy of LLM-Generated Counterfactually Augmented Data for Harmful Language Detection ( http://arxiv.org/abs/2311.01270v3 )

ライセンス: Link先を確認
Indira Sen, Dennis Assenmacher, Mattia Samory, Isabelle Augenstein, Wil van der Aalst, Claudia Wagner(参考訳) nlpモデルは、性差別者、人種差別主義者、その他嫌悪なコンテンツの検出など、様々な重要な社会コンピューティングタスクで使用される。 したがって、これらのモデルがスプリアス機能に対して堅牢であることは必須である。 過去の研究は、CAD(Counterfactually Augmented Data)を含むトレーニングデータ拡張を使用して、このような急激な機能に取り組みました。 CADは既存のトレーニングデータポイントに最小限の変更を導入し、ラベルをフリップする。 しかし、手動でCADを生成するのは時間と費用がかかる。 そこで本研究では,生成NLPモデルを用いて,このタスクが自動化可能かどうかを評価する。 我々は,polyjuice,chatgpt,flan-t5を用いてcadを自動生成し,モデルロバスト性を改善するための有用性を評価する。 複数のドメイン外のテストセットでモデル性能と個々のデータポイントの有効性をテストすることで、手動CADは依然として最も効果的であるが、ChatGPTが生成したCADは2秒間近かった。 自動メソッドのパフォーマンスが低い理由の1つは、彼らが導入した変更が元のラベルをひっくり返すのに不十分であることである。

NLP models are used in a variety of critical social computing tasks, such as detecting sexist, racist, or otherwise hateful content. Therefore, it is imperative that these models are robust to spurious features. Past work has attempted to tackle such spurious features using training data augmentation, including Counterfactually Augmented Data (CADs). CADs introduce minimal changes to existing training data points and flip their labels; training on them may reduce model dependency on spurious features. However, manually generating CADs can be time-consuming and expensive. Hence in this work, we assess if this task can be automated using generative NLP models. We automatically generate CADs using Polyjuice, ChatGPT, and Flan-T5, and evaluate their usefulness in improving model robustness compared to manually-generated CADs. By testing both model performance on multiple out-of-domain test sets and individual data point efficacy, our results show that while manual CADs are still the most effective, CADs generated by ChatGPT come a close second. One key reason for the lower performance of automated methods is that the changes they introduce are often insufficient to flip the original label.
翻訳日:2024-02-27 18:57:09 公開日:2024-02-25
# 教育用大規模言語モデルへの適応 : 基礎的能力・可能性・課題

Adapting Large Language Models for Education: Foundational Capabilities, Potentials, and Challenges ( http://arxiv.org/abs/2401.08664v2 )

ライセンス: Link先を確認
Qingyao Li, Lingyue Fu, Weiming Zhang, Xianyu Chen, Jingwei Yu, Wei Xia, Weinan Zhang, Ruiming Tang, Yong Yu(参考訳) インターネットを利用して教育リソースを配布するオンライン教育プラットフォームは、便利な教育を提供しようとするが、学生とのリアルタイムコミュニケーションでは不足することが多い。 彼らはしばしば、学習旅行中に学生が遭遇する多様な障害に対処するため、パーソナライズされた教育資源を提供するのに苦労する。 近年、ChatGPTのような大規模言語モデル(LLM)の出現は、個々の要求を解釈することでこの問題を解決する可能性を秘めている。 LLMは様々な分野で成功を収めてきたが、LLMベースの教育システムの構築は、必要な幅広い教育スキルにおいて依然として困難である。 本稿では,近年発表された数学,文章,プログラミング,推論,知識に基づく質問応答など教育能力に関するllm研究を概観し,次世代知的教育システム構築におけるその可能性について考察する。 現在の開発状況に基づいて,LLM ベースの教育システムに対する2つのアプローチについて概説する:統一的アプローチと総合的アプローチ (MoE) である。 最後に,課題と今後の方向性を探求し,LLMを教育に適応するための新たな研究機会と視点を提供する。

Online education platforms, leveraging the internet to distribute education resources, seek to provide convenient education but often fall short in real-time communication with students. They often struggle to offer personalized education resources due to the challenge of addressing the diverse obstacles students encounter throughout their learning journey. Recently, the emergence of large language models (LLMs), such as ChatGPT, offers the possibility for resolving this issue by comprehending individual requests. Although LLMs have been successful in various fields, creating an LLM-based education system is still challenging for the wide range of educational skills required. This paper reviews the recently emerged LLM researches related to educational capabilities, including mathematics, writing, programming, reasoning, and knowledge-based question answering, with the aim to explore their potential in constructing the next-generation intelligent education system. Based on the current development status, we further outline two approaches for an LLM-based education system: a unified approach and a mixture-of-expert (MoE) approach. Finally, we explore the challenges and future directions, providing new research opportunities and perspectives on adapting LLMs for education.
翻訳日:2024-02-27 18:51:49 公開日:2024-02-25
# MapGPT:視覚・言語ナビゲーションのための適応経路計画付きマップガイドプロンプト

MapGPT: Map-Guided Prompting with Adaptive Path Planning for Vision-and-Language Navigation ( http://arxiv.org/abs/2401.07314v2 )

ライセンス: Link先を確認
Jiaqi Chen, Bingqian Lin, Ran Xu, Zhenhua Chai, Xiaodan Liang, Kwan-Yee K. Wong(参考訳) 脳にGPTを装着した身体エージェントは、様々なタスクで異常な意思決定と一般化能力を示した。 しかしながら、既存の視覚・言語ナビゲーションのためのゼロショットエージェント(VLN)は、エージェントが全体の環境を理解するための効果的な"グローバルビュー"を構築することなく、GPT-4に局所的な環境内の潜在的な場所を選択させるだけである。 本研究では,地図誘導型GPTエージェントであるMapGPTについて紹介する。 具体的には、GPTが空間環境を理解するのに役立つように、オンラインマップを構築し、ノード情報やトポロジカルな関係を含むプロンプトに組み込む。 この設計の利点を生かして,複数の候補ノードやサブゴールを段階的に探索し,マップに基づいてエージェントが複数ステップの経路計画を行うのを支援する適応的計画機構を提案する。 GPT-4 と GPT-4V の両方に適用でき、R2R と REVERIE における最先端のゼロショット性能(SR の約10%と12% の改善)を同時に達成し、GPT の新たなグローバルな思考と経路計画能力を示す。

Embodied agents equipped with GPT as their brain have exhibited extraordinary decision-making and generalization abilities across various tasks. However, existing zero-shot agents for vision-and-language navigation (VLN) only prompt the GPT-4 to select potential locations within localized environments, without constructing an effective "global-view" for the agent to understand the overall environment. In this work, we present a novel map-guided GPT-based agent, dubbed MapGPT, which introduces an online linguistic-formed map to encourage the global exploration. Specifically, we build an online map and incorporate it into the prompts that include node information and topological relationships, to help GPT understand the spatial environment. Benefiting from this design, we further propose an adaptive planning mechanism to assist the agent in performing multi-step path planning based on a map, systematically exploring multiple candidate nodes or sub-goals step by step. Extensive experiments demonstrate that our MapGPT is applicable to both GPT-4 and GPT-4V, achieving state-of-the-art zero-shot performance on the R2R and REVERIE simultaneously (~10% and ~12% improvements in SR), and showcasing the newly emerged global thinking and path planning abilities of the GPT.
翻訳日:2024-02-27 18:50:44 公開日:2024-02-25
# AllSpark:13のモダリティを備えたマルチモーダル時空間汎用インテリジェンスモデル

AllSpark: A Multimodal Spatio-Temporal General Intelligence Model with Thirteen Modalities ( http://arxiv.org/abs/2401.00546v2 )

ライセンス: Link先を確認
Run Shao, Cheng Yang, Qiujun Li, Qing Zhu, Yongjun Zhang, YanSheng Li, Yu Liu, Yong Tang, Dapeng Liu, Shizhong Yang, Haifeng Li(参考訳) 様々な時空間モーダルデータにおける構造と意味の多様性が高いため、多モード時空間データの合同解釈は、長い間、非常に困難な問題であった。 主な課題は、様々なモダリティの凝集と自律性の間のトレードオフを打破することであり、このトレードオフはモダリティの数が増えるにつれて徐々に非線形な性質を示す。 言語・アズ・レファレンス・フレームワーク(LaRF)は多モーダル統一モデルを構築するための基本原理であり、異なるモダリティ間の凝集と自律性のトレードオフを打つことを目的としている。 我々はAllSparkと呼ばれるマルチモーダル時空間汎用人工知能モデルを提案する。 1D(テキスト,コード),2D(RGB,赤外線,SAR,マルチスペクトル,ハイパースペクトル,テーブル,グラフ,軌跡,斜め撮影),3D(ポイントクラウド,ビデオ)モダリティなど,13種類のモダリティを統一されたフレームワークに統合する。 モーダル結合を達成するため、AllSparkは様々なモーダル特徴を言語モーダルに一様にマッピングする。 さらに,マルチモーダルデータを正確に知覚するマルチモーダル大規模言語モデルのためのモーダリティ固有プロンプトの設計を行った。 モダリティの自律性を維持するため、AllSparkは様々な時空間モードのトークンを抽出するモダリティ固有のエンコーダを導入した。 モーダルブリッジは、各モーダルから言語モーダルへの次元投影を実現するために用いられる。 最後に、モデルの解釈と下流タスクのギャップを観察し、特定の下流タスクにおけるモデルの一般化能力を高めるためにタスクヘッドを設計した。 実験により、AllSparkは、最先端モデルと比較して、RGBやトラジェクトリのようなモダリティの競争精度を達成していることが示された。

For a long time, due to the high heterogeneity in structure and semantics among various spatiotemporal modal data, the joint interpretation of multimodal spatiotemporal data has been an extremely challenging problem. The primary challenge resides in striking a trade-off between the cohesion and autonomy of diverse modalities, and this trade-off exhibits a progressively nonlinear nature as the number of modalities expands. We introduce the Language as Reference Framework (LaRF), a fundamental principle for constructing a multimodal unified model, aiming to strike a trade-off between the cohesion and autonomy among different modalities. We propose a multimodal spatiotemporal general artificial intelligence model, called AllSpark. Our model integrates thirteen different modalities into a unified framework, including 1D (text, code), 2D (RGB, infrared, SAR, multispectral, hyperspectral, tables, graphs, trajectory, oblique photography), and 3D (point clouds, videos) modalities. To achieve modal cohesion, AllSpark uniformly maps diverse modal features to the language modality. In addition, we design modality-specific prompts to guide multi-modal large language models in accurately perceiving multimodal data. To maintain modality autonomy, AllSpark introduces modality-specific encoders to extract the tokens of various spatiotemporal modalities. And modal bridge is employed to achieve dimensional projection from each modality to the language modality. Finally, observing a gap between the model's interpretation and downstream tasks, we designed task heads to enhance the model's generalization capability on specific downstream tasks. Experiments indicate that AllSpark achieves competitive accuracy in modalities such as RGB and trajectory compared to state-of-the-art models.
翻訳日:2024-02-27 18:50:04 公開日:2024-02-25
# M3D:最大平均差最小化によるデータセットの縮合

M3D: Dataset Condensation by Minimizing Maximum Mean Discrepancy ( http://arxiv.org/abs/2312.15927v3 )

ライセンス: Link先を確認
Hansong Zhang, Shikun Li, Pengju Wang, Dan Zeng, Shiming Ge(参考訳) 最先端の訓練(SOTA)の深層モデルは、しばしば膨大なデータを必要とするため、かなりの訓練と保存コストがかかる。 これらの課題に対処するため、データセットの凝縮は、元の大規模データセットから必須情報を保持する小さな合成集合を学ぶために開発された。 今日では、SOTA結果を達成するためのデータセット凝縮の分野において、最適化指向の手法が主要な手法となっている。 しかし、この二段階最適化プロセスは、現実的で大規模なデータセットに対するそのような手法の実践的応用を妨げる。 凝縮効率を高めるため, 従来の配水処理(DM)を代替として提案し, 凝縮コストを大幅に削減した。 それでも、現在のDMベースの手法は、SOTA最適化指向の手法と同等ではない。 本稿では,既存のdmベース手法では分布の高次アライメントを見落としており,その結果が最適以下の結果をもたらす可能性があることを論じる。 そこで本研究では,合成画像と実画像の特徴表現間の最大平均差を最小化することにより,データセット凝縮のためのdmベース手法であるm3dを提案する。 それらの分布を再生カーネルヒルベルト空間に埋め込むことで、実像と合成像の分布のすべての順序を整列し、より一般化された凝縮集合となる。 特に,本手法は高解像度のImageNetデータセット上でのSOTA最適化指向のIDCを超えている。 提案手法の有効性を検証するため,広範な解析を行った。 ソースコードはhttps://github.com/Hansong-Zhang/M3Dで入手できる。

Training state-of-the-art (SOTA) deep models often requires extensive data, resulting in substantial training and storage costs. To address these challenges, dataset condensation has been developed to learn a small synthetic set that preserves essential information from the original large-scale dataset. Nowadays, optimization-oriented methods have been the primary method in the field of dataset condensation for achieving SOTA results. However, the bi-level optimization process hinders the practical application of such methods to realistic and larger datasets. To enhance condensation efficiency, previous works proposed Distribution-Matching (DM) as an alternative, which significantly reduces the condensation cost. Nonetheless, current DM-based methods still yield less comparable results to SOTA optimization-oriented methods. In this paper, we argue that existing DM-based methods overlook the higher-order alignment of the distributions, which may lead to sub-optimal matching results. Inspired by this, we present a novel DM-based method named M3D for dataset condensation by Minimizing the Maximum Mean Discrepancy between feature representations of the synthetic and real images. By embedding their distributions in a reproducing kernel Hilbert space, we align all orders of moments of the distributions of real and synthetic images, resulting in a more generalized condensed set. Notably, our method even surpasses the SOTA optimization-oriented method IDC on the high-resolution ImageNet dataset. Extensive analysis is conducted to verify the effectiveness of the proposed method. Source codes are available at https://github.com/Hansong-Zhang/M3D.
翻訳日:2024-02-27 18:49:13 公開日:2024-02-25
# 高速かつ改良された知識センスNLPのための効率的なタイトルリランカ

Efficient Title Reranker for Fast and Improved Knowledge-Intense NLP ( http://arxiv.org/abs/2312.12430v3 )

ライセンス: Link先を確認
Ziyi Chen, Jize Jiang, Daqian Zuo, Heyi Tao, Jun Yang, Yuxiang Wei(参考訳) 近年のragアプローチでは,検索精度の向上に重要な役割を担い,クエリとテキストの各ペアの論理関係を明らかにする。 しかし、既存のリランカは、クエリと大量の長い検索されたテキストを繰り返しエンコードする必要がある。 これにより計算コストが高くなり、検索されたテキストの数を制限し、精度を損なう。 この問題に対処するため,ブロードキャストクエリエンコーダという,バニラ通路レンコーダの20x-40倍の高速化を実現する新たなタイトルランク付け手法により,効率的なタイトルランク付けを実現する。 さらに、タイトルリランク用にカスタマイズされた新しい損失関数であるSigmoid Trickを紹介する。 両者の手法を組み合わせることで、KILT知識ベンチマークから実験した4つのデータセットすべてに対して、最先端の成果が得られたことを実証的に検証した。

In recent RAG approaches, rerankers play a pivotal role in refining retrieval accuracy with the ability of revealing logical relations for each pair of query and text. However, existing rerankers are required to repeatedly encode the query and a large number of long retrieved text. This results in high computational costs and limits the number of retrieved text, hindering accuracy. As a remedy of the problem, we introduce the Efficient Title Reranker via Broadcasting Query Encoder, a novel technique for title reranking that achieves a 20x-40x speedup over the vanilla passage reranker. Furthermore, we introduce Sigmoid Trick, a novel loss function customized for title reranking. Combining both techniques, we empirically validated their effectiveness, achieving state-of-the-art results on all four datasets we experimented with from the KILT knowledge benchmark.
翻訳日:2024-02-27 18:48:32 公開日:2024-02-25
# 混合蒸留はより小さな言語モデルの推論に役立つ

Mixed Distillation Helps Smaller Language Model Better Reasoning ( http://arxiv.org/abs/2312.10730v2 )

ライセンス: Link先を確認
Chenglin Li, Qianglong Chen, Liangyue Li, Caiyu Wang, Yicheng Li, Zulong Chen, Yin Zhang(参考訳) 大規模言語モデル(LLM)は、最近の自然言語処理(NLP)タスクにおいて例外的な性能を示してきたが、実際のアプリケーションでは高い計算量とメモリ要求のため、その展開は重大な課題となっている。 近年の研究では、LLMの知識蒸留による小型モデルの改良に焦点が当てられ、有望な結果が得られている。 しかしながら、これらのモデルは、特に推論を必要とするタスクにおいて、LLMのパフォーマンスに匹敵する。 本研究では,LLM内のPoT(Program of Thought)とCoT(Chain of Thought)の強みを活かしたMD(Mixed Distillation)フレームワークを導入する。 実験の結果,MDは,より小さなモデルの単一パスと複数パス推論能力を大幅に向上させることがわかった。 推論タスクの精度と一般性の観点からは、2つの個別蒸留モデルの包括的性能を超えている。 特に、LLaMA2-7B と CodeLlama-7B は、それぞれ SVAMP ベンチマークで GPT-3.5-Turbo を(2.5%)上回った (84.5%) と (85.5%) 。

While large language models (LLMs) have demonstrated exceptional performance in recent natural language processing (NLP) tasks, their deployment poses substantial challenges due to high computational and memory demands in real-world applications. Recent studies have focused on enhancing smaller models through knowledge distillation from LLMs, yielding promising results. However, these models often struggle to match the performance of LLMs, especially in tasks that require reasoning. In this work, we introduce Mixed Distillation (MD) framework, which capitalizes on the strengths of Program of Thought (PoT) and Chain of Thought (CoT) capabilities within LLMs, combining multiple prompting techniques and distilling these capabilities into smaller models. Our experimental results show that MD significantly enhances the single-path and multi-path reasoning ability of smaller models in various tasks. In terms of accuracy and generality of reasoning tasks, the model generated by it exceeds the comprehensive performance of two individually distilled models. Notably, LLaMA2-7B and CodeLlama-7B using MD achieved remarkable improvements of (84.5%) and (85.5%), respectively, outperforming GPT-3.5-Turbo by (2.5%) and (3.5%), on the SVAMP benchmark.
翻訳日:2024-02-27 18:48:16 公開日:2024-02-25
# 人力航空機設計に着目した単目的・多目的最適化ベンチマーク問題

Single and Multi-Objective Optimization Benchmark Problems Focusing on Human-Powered Aircraft Design ( http://arxiv.org/abs/2312.08953v3 )

ライセンス: Link先を確認
Nobuo Namura(参考訳) 本稿では,人力航空機の設計に特化して,単目的・多目的両方の最適化研究を進めるための新しいベンチマーク問題を提案する。 これらのベンチマーク問題は、流体力学や物質力学のような実世界設計の考察を取り入れ、エンジニアリング設計最適化のより現実的なシミュレーションを提供するという点でユニークである。 そこで本研究では,これらの問題に対して3つの難易度レベルと翼分節パラメータを提案する。 これらの問題は計算量的に合理的に設計され、短い評価時間を確保しながら、エンジニアリング設計の問題の適度なマルチモーダリティを捉えている。 多目的問題に対する一般的な進化アルゴリズムを用いた広範な実験により,提案するベンチマークが,凸,線形,凹凸,逆三角形といった実世界の問題で観測されるパレートフロント形状を効果的に再現できることが証明された。 ベンチマーク問題のソースコードは、最適化研究コミュニティの幅広いアプリケーション向けに公開されている。

This paper introduces a novel set of benchmark problems aimed at advancing research in both single and multi-objective optimization, with a specific focus on the design of human-powered aircraft. These benchmark problems are unique in that they incorporate real-world design considerations such as fluid dynamics and material mechanics, providing a more realistic simulation of engineering design optimization. We propose three difficulty levels and a wing segmentation parameter in these problems, allowing for scalable complexity to suit various research needs. The problems are designed to be computationally reasonable, ensuring short evaluation times, while still capturing the moderate multimodality of engineering design problems. Our extensive experiments using popular evolutionary algorithms for multi-objective problems demonstrate that the proposed benchmarks effectively replicate the diverse Pareto front shapes observed in real-world problems, including convex, linear, concave, and inverted triangular forms. The benchmark problems' source codes are publicly available for wider application in the optimization research community.
翻訳日:2024-02-27 18:47:48 公開日:2024-02-25
# GPT-4V(ision)は分布シフトにどの程度適応するか? 予備調査

How Well Does GPT-4V(ision) Adapt to Distribution Shifts? A Preliminary Investigation ( http://arxiv.org/abs/2312.07424v3 )

ライセンス: Link先を確認
Zhongyi Han, Guanglin Zhou, Rundong He, Jindong Wang, Tailin Wu, Yilong Yin, Salman Khan, Lina Yao, Tongliang Liu, Kun Zhang(参考訳) 機械学習では、特に気候モデリング、バイオメディシン、自動運転といった分野において、デプロイメント条件がトレーニングシナリオから逸脱する分散シフトに対する一般化が重要である。 基礎モデルの出現は、その広範な事前訓練とタスクの汎用性によって区別され、分布シフトへの適応性への関心が高まった。 GPT-4V(ision)は最も先進的な多モード基盤モデルとして機能し、異常検出、ビデオ理解、画像生成、医療診断など様々な分野に応用されている。 しかし、そのデータ分布に対する堅牢性は、ほとんど未調査のままである。 このギャップに対処するため,本研究ではgpt-4vの動的環境における適応性と一般化性を厳格に評価し,clip,llava,geminiなどの著名なモデルに対するベンチマークを行った。 GPT-4Vのゼロショット一般化は、自然領域、医学領域、分子領域にまたがる13の多様なデータセットにまたがる。 さらに、制御されたデータ摂動に対する適応性について検討し、適応性を高めるツールとして、文脈内学習の有効性を検討する。 本研究は, GPT-4Vの分散シフトにおける機能境界を明確化し, その強度と限界を様々なシナリオで明らかにした。 この調査は、AIファンデーションモデルが分散シフトにどのように一般化するかの理解に寄与し、適応性と堅牢性に関する重要な洞察を提供する。 コードはhttps://github.com/jameszhou-gl/gpt-4v-distribution-shiftで公開されている。

In machine learning, generalization against distribution shifts -- where deployment conditions diverge from the training scenarios -- is crucial, particularly in fields like climate modeling, biomedicine, and autonomous driving. The emergence of foundation models, distinguished by their extensive pretraining and task versatility, has led to an increased interest in their adaptability to distribution shifts. GPT-4V(ision) acts as the most advanced publicly accessible multimodal foundation model, with extensive applications across various domains, including anomaly detection, video understanding, image generation, and medical diagnosis. However, its robustness against data distributions remains largely underexplored. Addressing this gap, this study rigorously evaluates GPT-4V's adaptability and generalization capabilities in dynamic environments, benchmarking against prominent models like CLIP, LLaVA, and Gemini. We delve into GPT-4V's zero-shot generalization across 13 diverse datasets spanning natural, medical, and molecular domains. We further investigate its adaptability to controlled data perturbations and examine the efficacy of in-context learning as a tool to enhance its adaptation. Our findings delineate GPT-4V's capability boundaries in distribution shifts, shedding light on its strengths and limitations across various scenarios. Importantly, this investigation contributes to our understanding of how AI foundation models generalize to distribution shifts, offering pivotal insights into their adaptability and robustness. The code is publicly available at https://github.com/jameszhou-gl/gpt-4v-distribution-shift.
翻訳日:2024-02-27 18:47:09 公開日:2024-02-25
# SGS-SLAM: 感性ガウススプラッティングによるニューラルセンスSLAM

SGS-SLAM: Semantic Gaussian Splatting For Neural Dense SLAM ( http://arxiv.org/abs/2402.03246v2 )

ライセンス: Link先を確認
Mingrui Li, Shuhong Liu, Heng Zhou, Guohao Zhu, Na Cheng, Hongyu Wang(参考訳) 意味的理解は、Dense Simultaneous Localization and Mapping (SLAM)において重要な役割を果たす。 SLAMシステムにガウススプラッティングを組み込んだ最近の進歩は、高品質なレンダリングを実現する上での有効性を実証している。 本研究では, 高精度な3次元セマンティックセグメンテーションと高忠実度再構成を実現するSGS-SLAMを提案する。 具体的には,多チャンネル最適化をマッピングプロセスに導入し,外観,幾何学的,意味的制約をキーフレーム最適化と統合し,コンストラクション品質を向上させることを提案する。 SGS-SLAMは、カメラポーズ推定、マップ再構成、セマンティックセグメンテーションにおいて最先端のパフォーマンスを提供する。 既存の手法をはるかに上回りながら、リアルタイムレンダリング能力を保っている。

Semantic understanding plays a crucial role in Dense Simultaneous Localization and Mapping (SLAM). Recent advancements that integrate Gaussian Splatting into SLAM systems have demonstrated its effectiveness in generating high-quality renderings. Building on this progress, we propose SGS-SLAM which provides precise 3D semantic segmentation alongside high-fidelity reconstructions. Specifically, we propose to employ multi-channel optimization during the mapping process, integrating appearance, geometric, and semantic constraints with key-frame optimization to enhance reconstruction quality. Extensive experiments demonstrate that SGS-SLAM delivers state-of-the-art performance in camera pose estimation, map reconstruction, and semantic segmentation. It outperforms existing methods by a large margin meanwhile preserves real-time rendering ability.
翻訳日:2024-02-27 18:40:23 公開日:2024-02-25
# バニラベイズ最適化、高次元で大きなパフォーマンス

Vanilla Bayesian Optimization Performs Great in High Dimensions ( http://arxiv.org/abs/2402.02229v3 )

ライセンス: Link先を確認
Carl Hvarfner and Erik Orm Hellsten and Luigi Nardi(参考訳) 高次元問題はベイズ最適化アルゴリズムのアキレスのヒールと見なされてきた。 次元の呪いによって刺激されたアルゴリズムの大規模なコレクションは、目的に対して様々な単純化された仮定を課すことで、この設定においてよりパフォーマンスの高いものにすることを目的としている。 本稿では,バニラベイズ最適化が高次元タスクに不適合となるような不均一性を明らかにするとともに,既存のアルゴリズムがモデル複雑性を低減させるレンズを通してこれらの不均一性に対処する方法を示す。 さらに,バニラベイズ最適化アルゴリズムに典型的な従来の仮定の強化を提案し,目的に構造的制約を課すことなく,管理可能なレベルへの複雑性を低減する。 我々の修正 - 次元に先行するガウス過程の単純なスケーリング - により、標準的なベイズ最適化は、以前考えられていた高次元よりも大幅にうまく機能し、複数の一般的な実世界の高次元タスクにおいて既存の最先端アルゴリズムよりも明らかに優れていることが分かる。

High-dimensional problems have long been considered the Achilles' heel of Bayesian optimization algorithms. Spurred by the curse of dimensionality, a large collection of algorithms aim to make it more performant in this setting, commonly by imposing various simplifying assumptions on the objective. In this paper, we identify the degeneracies that make vanilla Bayesian optimization poorly suited to high-dimensional tasks, and further show how existing algorithms address these degeneracies through the lens of lowering the model complexity. Moreover, we propose an enhancement to the prior assumptions that are typical to vanilla Bayesian optimization algorithms, which reduces the complexity to manageable levels without imposing structural restrictions on the objective. Our modification - a simple scaling of the Gaussian process lengthscale prior with the dimensionality - reveals that standard Bayesian optimization works drastically better than previously thought in high dimensions, clearly outperforming existing state-of-the-art algorithms on multiple commonly considered real-world high-dimensional tasks.
翻訳日:2024-02-27 18:39:48 公開日:2024-02-25
# PokeLLMon: 大規模な言語モデルを用いたポケモンバトルのための人間パーティエージェント

PokeLLMon: A Human-Parity Agent for Pokemon Battles with Large Language Models ( http://arxiv.org/abs/2402.01118v2 )

ライセンス: Link先を確認
Sihao Hu, Tiansheng Huang, Ling Liu(参考訳) 我々は,pokemon battlesで実証されたように,戦術バトルゲームにおいて人間と対等なパフォーマンスを実現する,初のllm-embodied agentであるpokellmonを紹介する。 PokeLLMonの設計には3つの重要な戦略がある。 (i)戦闘から派生したテキストベースのフィードバックを瞬時に消費し、政策を反復的に洗練する文脈内強化学習 2 幻覚を予防するために外部知識を回収し、エージェントが適時かつ適切に行動できるようにする知識増強世代 (iii)エージェントが強力な相手に直面して戦闘を防ぎたいとき、パニックスイッチング現象を緩和するための一貫したアクション生成。 オンライン・バトル・トゥ・ヒューマンはポケモンの人間的な戦闘戦略とジャスト・イン・タイムの意思決定を実証し、ラダー競技では49%、招待戦では56%の勝利率を達成した。 実装とプレイ可能なバトルログは、 \url{https://github.com/git-disl/pokellmon} で利用可能です。

We introduce PokeLLMon, the first LLM-embodied agent that achieves human-parity performance in tactical battle games, as demonstrated in Pokemon battles. The design of PokeLLMon incorporates three key strategies: (i) In-context reinforcement learning that instantly consumes text-based feedback derived from battles to iteratively refine the policy; (ii) Knowledge-augmented generation that retrieves external knowledge to counteract hallucination and enables the agent to act timely and properly; (iii) Consistent action generation to mitigate the panic switching phenomenon when the agent faces a powerful opponent and wants to elude the battle. We show that online battles against human demonstrates PokeLLMon's human-like battle strategies and just-in-time decision making, achieving 49% of win rate in the Ladder competitions and 56% of win rate in the invited battles. Our implementation and playable battle logs are available at: \url{https://github.com/git-disl/PokeLLMon}.
翻訳日:2024-02-27 18:38:45 公開日:2024-02-25
# HiFT:階層型フルパラメータ細調整戦略

HiFT: A Hierarchical Full Parameter Fine-Tuning Strategy ( http://arxiv.org/abs/2401.15207v2 )

ライセンス: Link先を確認
Yongkang Liu, Yiqun Zhang, Qian Li, Tong Liu, Shi Feng, Daling Wang, Yifei Zhang and Hinrich Sch\"utze(参考訳) 言語モデル(LM)を下流タスクに適応させる手段として,フルパラメータの微調整が選択肢となっている。 LMのサイズが大きくなるにつれて、LMの完全なパラメータを微調整するには、非常に大量のGPUメモリが必要である。 既存のアプローチでは、ゼロオーダーオプティマイザを使用してGPUメモリを保存することで、非ゼロオーダーオプティマイザがほとんどのダウンストリームタスクに容易に収束する傾向があるため、LMのパフォーマンスを損なう可能性がある。 本稿では,各学習段階におけるパラメータのサブセットのみを更新する,最適化非依存のエンドツーエンド階層的微調整戦略であるHiFTを提案する。 HiFTは、GPUメモリに存在する勾配の量と最適化状態パラメータを同時に大幅に削減し、GPUメモリ使用量を減らすことができる。 その結果,(1) HiFT はパラメータ効率の高いファインチューニングと標準のフルパラメータファインチューニングに匹敵する性能を実現する。 (2) hiftは、adamw、adagrad、sgdなどを含む様々な最適化をサポートする。 (3) hiftは、7bモデルの標準フルパラメータの微調整と比較して、60\%以上のgpuメモリを節約できる。 (4) HiFTはメモリセーブ技術を用いることなく,AdamWオプティマイザを用いた精度32のシングル48G A6000上で7Bモデルのフルパラメータ微調整を可能にする。

Full-parameter fine-tuning has become the go-to choice for adapting language models (LMs) to downstream tasks due to its excellent performance. As LMs grow in size, fine-tuning the full parameters of LMs requires a prohibitively large amount of GPU memory. Existing approaches utilize zeroth-order optimizer to conserve GPU memory, which can potentially compromise the performance of LMs as non-zero order optimizers tend to converge more readily on most downstream tasks. In this paper, we propose a novel optimizer-independent end-to-end hierarchical fine-tuning strategy, HiFT, which only updates a subset of parameters at each training step. HiFT can significantly reduce the amount of gradients and optimizer state parameters residing in GPU memory at the same time, thereby reducing GPU memory usage. Our results demonstrate that: (1) HiFT achieves comparable performance to parameter-efficient fine-tuning and standard full parameter fine-tuning. (2) HiFT supports various optimizers including AdamW, AdaGrad, SGD, etc. (3) HiFT can save more than 60\% GPU memory compared with standard full-parameter fine-tuning for 7B model. (4) HiFT enables full-parameter fine-tuning of a 7B model on single 48G A6000 with a precision of 32 using the AdamW optimizer, without using any memory saving techniques.
翻訳日:2024-02-27 18:37:31 公開日:2024-02-25
# rewards-in-context:動的嗜好調整を伴う基礎モデルの多目的アライメント

Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment ( http://arxiv.org/abs/2402.10207v3 )

ライセンス: Link先を確認
Rui Yang, Xiaoman Pan, Feng Luo, Shuang Qiu, Han Zhong, Dong Yu, Jianshu Chen(参考訳) 我々は、基礎モデルの多目的アライメントと人間の好みの問題を考える。これは、有益で無害なaiシステムへの重要なステップである。 しかし、強化学習(rl)を用いた大規模基礎モデルでは、一般的にコストがかかり不安定であり、多次元性、異質性、相反する人間の選好の性質によりアライメントプロセスはさらに複雑になる。 本稿では,複数の報酬に対する基礎モデルの応答をプロンプト・コンテキストで条件付けし,教師付き微調整をアライメントに適用したrewards-in-context (ric)を提案する。 RiCの優れた特徴は単純さと適応性であり、単一のファンデーションモデルの教師付き微調整しか必要とせず、推論時間中にユーザの好みを動的に調整できる。 抽象凸最適化問題の解析解にインスパイアされた我々の動的推論時間調整法は、複数の目的に対してパレート最適解にアプローチする。 実験的な証拠は,多目的RLベースラインと比較して,多言語モデル (LLM) と拡散モデルの両方が,約10%のGPU時間で報奨に適合することを示す。

We consider the problem of multi-objective alignment of foundation models with human preferences, which is a critical step towards helpful and harmless AI systems. However, it is generally costly and unstable to fine-tune large foundation models using reinforcement learning (RL), and the multi-dimensionality, heterogeneity, and conflicting nature of human preferences further complicate the alignment process. In this paper, we introduce Rewards-in-Context (RiC), which conditions the response of a foundation model on multiple rewards in its prompt context and applies supervised fine-tuning for alignment. The salient features of RiC are simplicity and adaptivity, as it only requires supervised fine-tuning of a single foundation model and supports dynamic adjustment for user preferences during inference time. Inspired by the analytical solution of an abstracted convex optimization problem, our dynamic inference-time adjustment method approaches the Pareto-optimal solution for multiple objectives. Empirical evidence demonstrates the efficacy of our method in aligning both Large Language Models (LLMs) and diffusion models to accommodate diverse rewards with only around 10% GPU hours compared with multi-objective RL baseline.
翻訳日:2024-02-27 18:30:41 公開日:2024-02-25
# 未知ゲームにおける非回帰学習のための最適トンプソンサンプリング

Optimistic Thompson Sampling for No-Regret Learning in Unknown Games ( http://arxiv.org/abs/2402.09456v2 )

ライセンス: Link先を確認
Yingru Li, Liangqi Liu, Wenqiang Pu, Hao Liang, Zhi-Quan Luo(参考訳) この作業は、マルチプレイヤーシナリオの複雑さに対処し、戦略的な意思決定とともにバンディットフィードバックを通じて環境の不確実性をナビゲートすることが主な課題である。 我々は、相手の行動や報酬構造に関する情報を利用するトンプソンサンプリング(TS)ベースのアルゴリズムを導入し、実験予算を大幅に削減し、従来のアプローチに比べて10倍以上の改善を実現した。 特に,我々のアルゴリズムは,特定の報酬構造を考慮に入れた場合,後悔の束縛は行動空間全体の対数的に依存し,マルチプレイヤーの呪いを著しく軽減することを示した。 さらに,既存のアルゴリズムをシームレスに組み込んだ先駆的手法である 'emph{Optimism-then-NoRegret} (OTN) フレームワークも公開し,実世界でのトラフィックルーティングやレーダセンシングといった現実的なシナリオにおいて,その実用性を示す。

This work tackles the complexities of multi-player scenarios in \emph{unknown games}, where the primary challenge lies in navigating the uncertainty of the environment through bandit feedback alongside strategic decision-making. We introduce Thompson Sampling (TS)-based algorithms that exploit the information of opponents' actions and reward structures, leading to a substantial reduction in experimental budgets -- achieving over tenfold improvements compared to conventional approaches. Notably, our algorithms demonstrate that, given specific reward structures, the regret bound depends logarithmically on the total action space, significantly alleviating the curse of multi-player. Furthermore, we unveil the \emph{Optimism-then-NoRegret} (OTN) framework, a pioneering methodology that seamlessly incorporates our advancements with established algorithms, showcasing its utility in practical scenarios such as traffic routing and radar sensing in the real world.
翻訳日:2024-02-27 18:30:19 公開日:2024-02-25
# おとぎ話に明示的に存在する価値:ドイツ、イタリア、ポルトガルの伝統の比較

Values That Are Explicitly Present in Fairy Tales: Comparing Samples from German, Italian and Portuguese Traditions ( http://arxiv.org/abs/2402.08318v2 )

ライセンス: Link先を確認
Alba Morollon Diaz-Faes, Carla Sofia Ribeiro Murteira, Martin Ruskov(参考訳) 童話の中で社会的価値がどのように表現されているかを見ると、文化間の価値のコミュニケーションのバリエーションについての洞察が得られる。 本稿では,ポルトガル,イタリア,ドイツの妖精話において,語彙の違いと共通点を定量化するために,コンパスに単語を埋め込む手法を用いて,どのように価値が伝達されるかを検討する。 我々は,これら三つのおとぎ話の伝統が,価値観に対する明示的な言及においてどのように異なるかを考察する。 これを実現するために,バリューチャージされたトークンのリストを定義し,それらの単語の語幹を考慮し,それら間の距離を事前学習したword2vecモデルで解析する。 この定量的モデルから生じる仮説の有効性を三角測量し、批判的に議論する。 我々の主張では、これは歴史的コーパスで明示的に参照された値の研究において、再利用可能な再現可能な方法である。 最後に,我々の予備的な知見は,欧州社会全体での文化的理解の共有と,ベネヴァレンス,コンフォーマル性,普遍主義といった価値観の表現を示唆し,汎ヨーロッパ文化記憶の存在を示唆している。

Looking at how social values are represented in fairy tales can give insights about the variations in communication of values across cultures. We propose to study how values are communicated in fairy tales from Portugal, Italy and Germany using a technique called word embedding with a compass to quantify vocabulary differences and commonalities. We study how these three national traditions of fairy tales differ in their explicit references to values. To do this, we specify a list of value-charged tokens, consider their word stems and analyse the distance between these in a bespoke pre-trained Word2Vec model. We triangulate and critically discuss the validity of the resulting hypotheses emerging from this quantitative model. Our claim is that this is a reusable and reproducible method for the study of the values explicitly referenced in historical corpora. Finally, our preliminary findings hint at a shared cultural understanding and the expression of values such as Benevolence, Conformity, and Universalism across European societies, suggesting the existence of a pan-European cultural memory.
翻訳日:2024-02-27 18:29:30 公開日:2024-02-25
# 言語フィードバックモデルを用いた政策改善

Policy Improvement using Language Feedback Models ( http://arxiv.org/abs/2402.07876v3 )

ライセンス: Link先を確認
Victor Zhong, Dipendra Misra, Xingdi Yuan, Marc-Alexandre C\^ot\'e(参考訳) 本稿では,言語フィードバックモデル (LFM) を導入し,指示文で指定されたタスクを遂行する上で望ましい行動,すなわち指示文の模倣学習を支援する。 LFMを訓練するために,言語記述に適応した視覚的軌跡に対するLarge Language Models (LLMs) からのフィードバックを得た。 まず, 3つの異なる言語基盤環境(タッチダウン, サイエンスワールド, ALFWorld)において, LFMを用いて望ましい行動を特定することにより, 強力な行動クローニングベースラインよりもタスク補完率を向上させる。 第2に、LPMの出力トークン数を制御する場合、LSMを専門家として使用してアクションを直接予測する。 第3に、LFMは未確認環境に一般化し、1ラウンドの適応によりタスク完了率を3.5-12.0%向上させる。 最後に、LCMは人間の解釈可能なフィードバックを性能損失なく提供し、模倣学習に望ましい行動の人間による検証を可能にする。

We introduce Language Feedback Models (LFMs) that identify desirable behaviour - actions that help achieve tasks specified in the instruction - for imitation learning in instruction following. To train LFMs, we obtain feedback from Large Language Models (LLMs) on visual trajectories verbalized to language descriptions. First, by using LFMs to identify desirable behaviour to imitate, we improve in task-completion rate over strong behavioural cloning baselines on three distinct language grounding environments (Touchdown, ScienceWorld, and ALFWorld). Second, LFMs outperform using LLMs as experts to directly predict actions, when controlling for the number of LLM output tokens. Third, LFMs generalize to unseen environments, improving task-completion rate by 3.5-12.0% through one round of adaptation. Finally, LFM can be modified to provide human-interpretable feedback without performance loss, allowing human verification of desirable behaviour for imitation learning.
翻訳日:2024-02-27 18:28:53 公開日:2024-02-25
# ClickSAM: 超音波画像分割のためのクリックプロンプトを用いた微調整セグメンテーションモデル

ClickSAM: Fine-tuning Segment Anything Model using click prompts for ultrasound image segmentation ( http://arxiv.org/abs/2402.05902v4 )

ライセンス: Link先を確認
Aimee Guo, Grace Fei, Hemanth Pasupuleti, and Jing Wang(参考訳) 新たにリリースされたsegment anything model(sam)は、セグメンテーション精度、入力プロンプトの多様性、トレーニング能力、効率的なモデル設計のため、画像処理で使用される一般的なツールである。 しかし、現在のモデルは医療画像、特に超音波画像に適合しない多様なデータセットで訓練されている。 超音波画像にはノイズが多く、重要な構造を分割することは困難である。 このプロジェクトでは,超音波画像のクリックプロンプトを用いて,セグメンテーションモデル(Segment Anything Model)を微調整するClickSAMを開発した。 ClickSAMには2つのトレーニングステージがある。第1ステージは、接地輪郭を中心としたワンクリックプロンプトでトレーニングされ、第2ステージは、追加のプラスクリックプロンプトと負クリックプロンプトによるモデルパフォーマンスの改善に焦点を当てている。 第1段階の予測を地対面と比較することにより、真正、偽正、偽負のセグメントを算出する。 正の正負のセグメントと偽の負のセグメントで正のクリックを生成し、偽の正のセグメントで負のクリックを生成する。 次に,Centroidal Voronoi Tessellationアルゴリズムを用いて,第2段階のトレーニングにおいてモデル性能を向上させるために使用するセグメント毎に,正および負のクリックプロンプトを収集する。 クリックトレイン法では、ClickSAMは他の超音波画像分割モデルと比較して優れた性能を示す。

The newly released Segment Anything Model (SAM) is a popular tool used in image processing due to its superior segmentation accuracy, variety of input prompts, training capabilities, and efficient model design. However, its current model is trained on a diverse dataset not tailored to medical images, particularly ultrasound images. Ultrasound images tend to have a lot of noise, making it difficult to segment out important structures. In this project, we developed ClickSAM, which fine-tunes the Segment Anything Model using click prompts for ultrasound images. ClickSAM has two stages of training: the first stage is trained on single-click prompts centered in the ground-truth contours, and the second stage focuses on improving the model performance through additional positive and negative click prompts. By comparing the first stage predictions to the ground-truth masks, true positive, false positive, and false negative segments are calculated. Positive clicks are generated using the true positive and false negative segments, and negative clicks are generated using the false positive segments. The Centroidal Voronoi Tessellation algorithm is then employed to collect positive and negative click prompts in each segment that are used to enhance the model performance during the second stage of training. With click-train methods, ClickSAM exhibits superior performance compared to other existing models for ultrasound image segmentation.
翻訳日:2024-02-27 18:28:34 公開日:2024-02-25
# hypermoe: ダイナミックトランスファーによる専門家の混合における非選択専門家の注意を払う

HyperMoE: Paying Attention to Unselected Experts in Mixture of Experts via Dynamic Transfer ( http://arxiv.org/abs/2402.12656v2 )

ライセンス: Link先を確認
Hao Zhao, Zihan Qiu, Huijia Wu, Zili Wang, Zhaofeng He, Jie Fu(参考訳) 言語モデルのMixture of Experts (MoE)は、各入力トークンを特定の専門家のサブセットに動的にルーティングすることで、モデルのキャパシティを増大させる効果が証明されている。 専門家の知識の利用の増加によるパフォーマンスの向上は、専門家の選考においてスパーシティの低下を招きます。 この矛盾を緩和するため、Hypernetworks上に構築された新しいMoEフレームワークであるHyperMoEを提案する。 このフレームワークは、マルチタスク学習における知識伝達の概念とMoEの計算処理を統合する。 選択されていない専門家の情報に基づいて生成される特定のモジュールは補足情報であり、選択されていない専門家の知識を選択範囲を維持しながら使用することができる。 複数のデータセットやバックボーンにまたがる包括的な経験的評価により、HyperMoEは、専門家数に関する同じ条件下で、既存のMoEメソッドを著しく上回ります。

The Mixture of Experts (MoE) for language models has been proven effective in augmenting the capacity of models by dynamically routing each input token to a specific subset of experts for processing. Despite the success, most existing methods face a challenge for balance between sparsity and the availability of expert knowledge: enhancing performance through increased use of expert knowledge often results in diminishing sparsity during expert selection. To mitigate this contradiction, we propose HyperMoE, a novel MoE framework built upon Hypernetworks. This framework integrates the computational processes of MoE with the concept of knowledge transferring in multi-task learning. Specific modules generated based on the information of unselected experts serve as supplementary information, which allows the knowledge of experts not selected to be used while maintaining selection sparsity. Our comprehensive empirical evaluations across multiple datasets and backbones establish that HyperMoE significantly outperforms existing MoE methods under identical conditions concerning the number of experts.
翻訳日:2024-02-27 18:17:52 公開日:2024-02-25
# パラメータ効率の良いファインチューニングのための重み付きバックドアアタック対策

Defending Against Weight-Poisoning Backdoor Attacks for Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2402.12168v2 )

ライセンス: Link先を確認
Shuai Zhao, Leilei Gan, Luu Anh Tuan, Jie Fu, Lingjuan Lyu, Meihuizi Jia, Jinming Wen(参考訳) 近年,言語モデルに適用するための様々なパラメータ効率細調整(PEFT)戦略が提案され,実装が成功している。 しかし、このことは、限られたモデルパラメータのみを更新するPEFTが、重み付けされたバックドア攻撃に直面した場合にセキュリティ上の脆弱性を構成するかどうかという問題を引き起こす。 本研究では,完全パラメータの微調整法と比較して,ペフトが重み付けバックドア攻撃の影響を受けやすいことを示し,事前定義されたトリガーは,微調整後も高い信頼性を保ったまま活用可能であることを示した。 この知見に動機づけられ,peftを利用した有毒サンプル識別モジュール (psim) を開発した。 具体的には、PEFTを利用して、ランダムにリセットされたサンプルラベルでPSIMをトレーニングする。 推論プロセスでは、極度の信頼度が有毒サンプルの指標となり、他のものはクリーンである。 テキスト分類タスク,5つの微調整戦略,および3つの重み付けバックドア攻撃手法について実験を行った。 実験では、PEFTを利用する場合、重量を抑えるバックドア攻撃が100%近い成功率を示す。 さらに,本研究の防御的アプローチは,バックドア攻撃を緩和する全体的な競争力を示す。

Recently, various parameter-efficient fine-tuning (PEFT) strategies for application to language models have been proposed and successfully implemented. However, this raises the question of whether PEFT, which only updates a limited set of model parameters, constitutes security vulnerabilities when confronted with weight-poisoning backdoor attacks. In this study, we show that PEFT is more susceptible to weight-poisoning backdoor attacks compared to the full-parameter fine-tuning method, with pre-defined triggers remaining exploitable and pre-defined targets maintaining high confidence, even after fine-tuning. Motivated by this insight, we developed a Poisoned Sample Identification Module (PSIM) leveraging PEFT, which identifies poisoned samples through confidence, providing robust defense against weight-poisoning backdoor attacks. Specifically, we leverage PEFT to train the PSIM with randomly reset sample labels. During the inference process, extreme confidence serves as an indicator for poisoned samples, while others are clean. We conduct experiments on text classification tasks, five fine-tuning strategies, and three weight-poisoning backdoor attack methods. Experiments show near 100% success rates for weight-poisoning backdoor attacks when utilizing PEFT. Furthermore, our defensive approach exhibits overall competitive performance in mitigating weight-poisoning backdoor attacks.
翻訳日:2024-02-27 18:17:19 公開日:2024-02-25
# フルカウンティング統計量によるガウス混合状態のトポロジーの探索

Probing Topology of Gaussian Mixed States by the Full Counting Statistics ( http://arxiv.org/abs/2402.15964v1 )

ライセンス: Link先を確認
Liang Mao, Hui Zhai, and Fan Yang(参考訳) トポロジカルバンド理論は、何十年にもわたって自由フェルミオンのために研究されており、最も深い物理的結果の1つはバルク境界対応である。 近年のトポロジカル物理学の傾向は、トポロジカル分類を混合状態に拡張している。 ここでは、密度行列のモジュラーハミルトニアンが二次自由フェルミオンモデルであり、位相不変量によって分類できるガウス混合状態に焦点を当てる。 バルク-バウンダリー対応は、モジュラーハミルトンおよび密度行列の退化スペクトルの安定なギャップレスモードとして表される。 本稿では,これらのギャップレスモードがF({\theta})と呼ばれる関数によって数学的に記述された完全なカウント統計によって検出可能であることを示す。 モジュラーハミルトニアンにおいて、 {\theta} = {\pi} における発散微分がギャップレスモードを探索することを示す。 統一への量子化が位相的に非自明な混合状態を認識する位相指標を導入することができる。 これらの結果の物理的直観を1次元と2次元の両方の具体的なモデルを用いて示す。 その結果,混合状態におけるトポロジーの物理的意義を明らかにする方法が示された。

Topological band theory has been studied for free fermions for decades, and one of the most profound physical results is the bulk-boundary correspondence. Recently a trend in topological physics is extending topological classification to mixed state. Here, we focus on Gaussian mixed states where the modular Hamiltonians of the density matrix are quadratic free fermion models and can be classified by topological invariants. The bulk-boundary correspondence is then manifested as stable gapless modes of the modular Hamiltonian and degenerate spectrum of the density matrix. In this letter, we show that these gapless modes can be detected by the full counting statistics, mathematically described by a function introduced as F({\theta}). We show that a divergent derivative at {\theta} = {\pi} probes the gapless modes in the modular Hamiltonian. We can introduce a topological indicator whose quantization to unity senses topologically nontrivial mixed states. We present the physical intuition of these results and also demonstrate these results with concrete models in both one- and two-dimensions. Our results pave the way for revealing the physical significance of topology in mixed states.
翻訳日:2024-02-27 16:13:47 公開日:2024-02-25
# 機械学習を用いた階層的エネルギーシグネチャによる自動車製造における運用可視性と診断

Hierarchical energy signatures using machine learning for operational visibility and diagnostics in automotive manufacturing ( http://arxiv.org/abs/2402.15962v1 )

ライセンス: Link先を確認
Ankur Verma, Seog-Chan Oh, Jorge Arinez, Soundar Kumara(参考訳) エネルギー消費データは、運用の可視性と診断に必要な重要なプロセスシグネチャを含んでいる。 これらのシグネチャは、月単位からサブ秒単位の解像度まで、時間スケールが異なる場合がある。 そこで本稿では,塗装店の電力消費データから自動車のプロセスシグネチャを特定するための階層型機械学習手法を提案する。 解析にはMLP(Multi-Layer Perceptron)、CNN(Convolutional Neural Network)、PCA(Principal Component Analysis)とLR(Logistic Regression)が併用されている。 対象分野の専門家による開発アルゴリズムの有用性を検証する。 (i)より良い運用可視性、及び (ii)省エネルギーの機会の特定。

Manufacturing energy consumption data contains important process signatures required for operational visibility and diagnostics. These signatures may be of different temporal scales, ranging from monthly to sub-second resolutions. We introduce a hierarchical machine learning approach to identify automotive process signatures from paint shop electricity consumption data at varying temporal scales (weekly and daily). A Multi-Layer Perceptron (MLP), a Convolutional Neural Network (CNN), and Principal Component Analysis (PCA) combined with Logistic Regression (LR) are used for the analysis. We validate the utility of the developed algorithms with subject matter experts for (i) better operational visibility, and (ii) identifying energy saving opportunities.
翻訳日:2024-02-27 16:13:29 公開日:2024-02-25
# VOLOC:圧縮ライダーマップ検索による視覚的位置認識

VOLoc: Visual Place Recognition by Querying Compressed Lidar Map ( http://arxiv.org/abs/2402.15961v1 )

ライセンス: Link先を確認
Xudong Cai, Yongcai Wang, Zhe Huang, Yu Shao and Deying Li(参考訳) 都市規模のライダーマップが利用可能になると、モバイルカメラを用いた都市規模の場所認識が可能になる。 しかし,都市規模のLidarマップは保存効率を高めるために圧縮する必要があるため,圧縮されたLidarマップでは直接視覚的位置認識が困難になる。 本稿では,実時間撮像された画像列を介して圧縮lidarマップを直接照会するために,幾何学的類似性を利用した高精度かつ効率的な視覚位置認識手法であるvolocを提案する。 オフラインの段階では、VOLOCは、圧縮が可逆である<emph{Geometry-Preserving Compressor} (GPC) を用いてライダーマップを圧縮する。 オンラインフェーズでは、VOLOCはオンラインのビジュアルオドメトリー(VO)とポイントクラウド最適化モジュールで構成されるオンラインのジオメトリックリカバリモジュール(GRM)を提案しており、カメラを取り巻くローカルなシーン構造をオンラインに復元して、 \emph{Querying Point Cloud} (QPC)を構築する。 次に、QPCは同じGPCで圧縮され、アテンションベースの集約モジュールによってグローバルディスクリプタに集約され、圧縮されたLidarマップをベクトル空間でクエリする。 また,アグリゲーションネットワークの精度と汎用性を向上させるために,転送学習機構を提案する。 大規模な評価では、VOLOCはLidar-to-Lidarの位置認識よりもローエンドのモバイルカメラで圧縮されたLidarマップを利用するための新しい記録を樹立した。 コードはhttps://github.com/Master-cai/VOLOC.comで公開されている。

The availability of city-scale Lidar maps enables the potential of city-scale place recognition using mobile cameras. However, the city-scale Lidar maps generally need to be compressed for storage efficiency, which increases the difficulty of direct visual place recognition in compressed Lidar maps. This paper proposes VOLoc, an accurate and efficient visual place recognition method that exploits geometric similarity to directly query the compressed Lidar map via the real-time captured image sequence. In the offline phase, VOLoc compresses the Lidar maps using a \emph{Geometry-Preserving Compressor} (GPC), in which the compression is reversible, a crucial requirement for the downstream 6DoF pose estimation. In the online phase, VOLoc proposes an online Geometric Recovery Module (GRM), which is composed of online Visual Odometry (VO) and a point cloud optimization module, such that the local scene structure around the camera is online recovered to build the \emph{Querying Point Cloud} (QPC). Then the QPC is compressed by the same GPC, and is aggregated into a global descriptor by an attention-based aggregation module, to query the compressed Lidar map in the vector space. A transfer learning mechanism is also proposed to improve the accuracy and the generality of the aggregation network. Extensive evaluations show that VOLoc provides localization accuracy even better than the Lidar-to-Lidar place recognition, setting up a new record for utilizing the compressed Lidar map by low-end mobile cameras. The code are publicly available at https://github.com/Master-cai/VOLoc.
翻訳日:2024-02-27 16:13:18 公開日:2024-02-25
# 計画による予算制約ツール学習

Budget-Constrained Tool Learning with Planning ( http://arxiv.org/abs/2402.15960v1 )

ライセンス: Link先を確認
Yuanhang Zheng, Peng Li, Ming Yan, Ji Zhang, Fei Huang and Yang Liu(参考訳) ツール学習への集中的な取り組みにもかかわらず、特定の予算制約内でユーザクエリを解決することに注力する予算制約ツール学習の問題は、広く見過ごされている。 本稿では,予算制約ツール学習のための新しい手法を提案する。 我々のアプローチは、ツールを利用する前に予算制約の下で望ましい計画を作成することを伴う。 この計画では、実現可能なツールの概要と、採用可能な最大回数を概説し、大規模言語モデルのツール学習プロセスの概要を概説する。 これにより、より広い視点から予算を割り当てることができる。 追加費用を伴わずに計画を立て直すためには,まず,過去の経験に基づいて候補ツールの有用性を推定することを提案する。 その後、計画の定式化に動的プログラミングを用いる。 実験により,本手法を各種ツール学習手法に統合し,厳格な予算制約下での有効性を著しく向上できることを示した。

Despite intensive efforts devoted to tool learning, the problem of budget-constrained tool learning, which focuses on resolving user queries within a specific budget constraint, has been widely overlooked. This paper proposes a novel method for budget-constrained tool learning. Our approach involves creating a preferable plan under the budget constraint before utilizing the tools. This plan outlines the feasible tools and the maximum number of times they can be employed, offering a comprehensive overview of the tool learning process for large language models. This allows them to allocate the budget from a broader perspective. To devise the plan without incurring significant extra costs, we suggest initially estimating the usefulness of the candidate tools based on past experience. Subsequently, we employ dynamic programming to formulate the plan. Experimental results demonstrate that our method can be integrated with various tool learning methods, significantly enhancing their effectiveness under strict budget constraints.
翻訳日:2024-02-27 16:12:45 公開日:2024-02-25
# ロバストな画像縫い付けに向けて:互換攻撃に対する適応的抵抗学習

Towards Robust Image Stitching: An Adaptive Resistance Learning against Compatible Attacks ( http://arxiv.org/abs/2402.15959v1 )

ライセンス: Link先を確認
Zhiying Jiang, Xingyuan Li, Jinyuan Liu, Xin Fan, Risheng Liu(参考訳) 画像縫合は、様々な視点から捉えた画像をシームレスに単一の視野画像に統合する。 このような統合は、キャプチャされたシーンを広げるだけでなく、コンピュータビジョンアプリケーションにおける全体的認識を高める。 一対の撮像画像が与えられたとき、人間の視覚システムに気づかない微妙な摂動と歪みは、対応マッチングを攻撃し、画像縫合アルゴリズムの性能を損なう傾向にある。 本稿では,この課題を踏まえて,対角攻撃に対する画像縫合の堅牢性向上に向けた最初の試みを示す。 具体的には、重なり合う領域内のアライメント損失を増幅し、特徴マッチング手順をターゲットとした、縫合指向アタック〜(SoA)を導入する。 攻撃抵抗モデルを確立するために, 縫合構造の堅牢性を探求し, 縫合精度のバランスをとるために, 適応的対角トレーニング~(AAT)を開発した。 このようにして、通常の対人訓練と良性モデルとのギャップを緩和し、品質の妥協なしに弾力性を確保する。 実世界および合成データセット全体にわたる総合的な評価は、縫合性能におけるSoAの劣化を検証する。 さらに、AATは対向性摂動に対してより堅牢な解として現れ、より優れた縫合結果をもたらす。 コードは:https://github.com/jzy2017/trisで入手できる。

Image stitching seamlessly integrates images captured from varying perspectives into a single wide field-of-view image. Such integration not only broadens the captured scene but also augments holistic perception in computer vision applications. Given a pair of captured images, subtle perturbations and distortions which go unnoticed by the human visual system tend to attack the correspondence matching, impairing the performance of image stitching algorithms. In light of this challenge, this paper presents the first attempt to improve the robustness of image stitching against adversarial attacks. Specifically, we introduce a stitching-oriented attack~(SoA), tailored to amplify the alignment loss within overlapping regions, thereby targeting the feature matching procedure. To establish an attack resistant model, we delve into the robustness of stitching architecture and develop an adaptive adversarial training~(AAT) to balance attack resistance with stitching precision. In this way, we relieve the gap between the routine adversarial training and benign models, ensuring resilience without quality compromise. Comprehensive evaluation across real-world and synthetic datasets validate the deterioration of SoA on stitching performance. Furthermore, AAT emerges as a more robust solution against adversarial perturbations, delivering superior stitching results. Code is available at:https://github.com/Jzy2017/TRIS.
翻訳日:2024-02-27 16:12:31 公開日:2024-02-25
# 三層ニューラルネットワークのダイナミクス:初期凝縮について

On the dynamics of three-layer neural networks: initial condensation ( http://arxiv.org/abs/2402.15958v1 )

ライセンス: Link先を確認
Zheng-an Chen, Tao Luo(参考訳) 経験的および理論的研究は、2層ニューラルネットワークの入力重みが小さな値で初期化されると、孤立した向きに収束することを示している。 この現象は凝縮と呼ばれ、勾配降下法がトレーニング過程でニューラルネットワークの複雑さを自然に減少させる傾向があることを示している。 本研究では,三層ニューラルネットワークの学習中に発生する凝縮現象の背後にあるメカニズムを解明し,二層ニューラルネットワークの学習と区別する。 理論的に厳密な解析を行い, 有効動力学のブローアップ特性を確立し, 凝縮の発生に十分な条件を提示する。 さらに, 深部行列分解における凝縮と低ランクバイアスの関係について検討した。

Empirical and theoretical works show that the input weights of two-layer neural networks, when initialized with small values, converge towards isolated orientations. This phenomenon, referred to as condensation, indicates that the gradient descent methods tend to spontaneously reduce the complexity of neural networks during the training process. In this work, we elucidate the mechanisms behind the condensation phenomena occurring in the training of three-layer neural networks and distinguish it from the training of two-layer neural networks. Through rigorous theoretical analysis, we establish the blow-up property of effective dynamics and present a sufficient condition for the occurrence of condensation, findings that are substantiated by experimental results. Additionally, we explore the association between condensation and the low-rank bias observed in deep matrix factorization.
翻訳日:2024-02-27 16:12:08 公開日:2024-02-25
# DynaMITE-RL: 時間的メタ強化学習のための動的モデル

DynaMITE-RL: A Dynamic Model for Improved Temporal Meta-Reinforcement Learning ( http://arxiv.org/abs/2402.15957v1 )

ライセンス: Link先を確認
Anthony Liang, Guy Tennenholtz, Chih-wei Hsu, Yinlam Chow, Erdem B{\i}y{\i}k, Craig Boutilier(参考訳) 本稿ではメタ強化学習(meta-RL)アプローチであるDynaMITE-RLを紹介する。 エピソードセッション(潜伏状態が固定されたエピソードの一部)をモデル化し、セッション内の潜伏情報の一貫性、セッションマスキング、先行潜伏条件付けという、既存のメタRLメソッドへの3つの重要な変更を提案する。 分散グリッドワールド環境から連続制御やシミュレーションロボット支援タスクまで,様々な領域におけるこれらの修正の重要性を実証し,ダイナマイトrlがサンプル効率や推論リターンにおいて最先端のベースラインを大きく上回ることを示した。

We introduce DynaMITE-RL, a meta-reinforcement learning (meta-RL) approach to approximate inference in environments where the latent state evolves at varying rates. We model episode sessions - parts of the episode where the latent state is fixed - and propose three key modifications to existing meta-RL methods: consistency of latent information within sessions, session masking, and prior latent conditioning. We demonstrate the importance of these modifications in various domains, ranging from discrete Gridworld environments to continuous-control and simulated robot assistive tasks, demonstrating that DynaMITE-RL significantly outperforms state-of-the-art baselines in sample efficiency and inference returns.
翻訳日:2024-02-27 16:11:55 公開日:2024-02-25
# ViSTec:スポーツ技術認識と戦術解析のためのビデオモデリング

ViSTec: Video Modeling for Sports Technique Recognition and Tactical Analysis ( http://arxiv.org/abs/2402.15952v1 )

ライセンス: Link先を確認
Yuchen He, Zeqing Yuan, Yihong Wu, Liqi Cheng, Dazhen Deng, Yingcai Wu(参考訳) ラケットスポーツの絶大な人気は、放送ビデオによる戦術分析にかなりの需要をもたらした。 しかし、既存の手作業では手間のかかるアノテーションが必要であり、映像知覚モデルを活用した最近の試みは、ボールの軌跡のような低レベルのアノテーションに限定されており、ストロークテクニックの理解を必要とする戦術を見渡している。 最先端のアクションセグメンテーションモデルも、ラケットスポーツビデオの頻繁な閉塞と動きによるぼやけのために技術認識に苦しむ。 これらの課題に対処するために,人間の認識にインスパイアされたビデオベースのスポーツ技術認識モデルViSTecを提案する。 提案手法は,ストロークシーケンスにおける戦略的知識を明示的にモデル化するグラフを統合し,文脈的帰納バイアスによる技術認識を強化する。 2段階の行動知覚モデルは、グラフの文脈知識と整合するように共同で訓練される。 実験により,本手法が既存モデルよりも有意な差を示した。 中国の卓球チームの専門家によるケーススタディは、我々のモデルが技術行動や戦術戦略の分析を自動化する能力を検証する。 詳細は、https://ViSTec2024.github.io/で確認できる。

The immense popularity of racket sports has fueled substantial demand in tactical analysis with broadcast videos. However, existing manual methods require laborious annotation, and recent attempts leveraging video perception models are limited to low-level annotations like ball trajectories, overlooking tactics that necessitate an understanding of stroke techniques. State-of-the-art action segmentation models also struggle with technique recognition due to frequent occlusions and motion-induced blurring in racket sports videos. To address these challenges, We propose ViSTec, a Video-based Sports Technique recognition model inspired by human cognition that synergizes sparse visual data with rich contextual insights. Our approach integrates a graph to explicitly model strategic knowledge in stroke sequences and enhance technique recognition with contextual inductive bias. A two-stage action perception model is jointly trained to align with the contextual knowledge in the graph. Experiments demonstrate that our method outperforms existing models by a significant margin. Case studies with experts from the Chinese national table tennis team validate our model's capacity to automate analysis for technical actions and tactical strategies. More details are available at: https://ViSTec2024.github.io/.
翻訳日:2024-02-27 16:11:43 公開日:2024-02-25
# GreenLLaMA: 説明付きデトックス化フレームワーク

GreenLLaMA: A Framework for Detoxification with Explanations ( http://arxiv.org/abs/2402.15951v1 )

ライセンス: Link先を確認
Md Tawkat Islam Khondaker, Muhammad Abdul-Mageed, Laks V. S. Lakshmanan(参考訳) デトキシ化に関する以前の研究は、現実のシナリオで必要とされるデトキシ化のすべての側面をカバーしていないという意味で散在している。 特に、事前の作業はデトキシフィケーションモデルを開発するタスクをプラットフォームの見掛けられたサブセットのみに制限し、モデルが未解決のプラットフォームでどのように実行されるかという問題を残している。 さらにこれらの研究は、毒性のあるテキストが意味を変えることなく解毒できない現象である非解毒性には対処しない。 上記の制限を緩和しようとする,初の包括的なエンドツーエンドデトキシフィケーションフレームワークであるgreenllamaを提案する。 まず,マルチステップデータ処理とchatgptを活用した生成戦略を適用したクロスプラットフォーム擬似並列コーパスを提案する。 次に、クロスプラットフォームコーパスで一連のデトキシフィケーションモデルをトレーニングします。 我々は,人間に注釈付き並列コーパスで学習した sota モデルよりもデトキシフィケーションモデルの方が優れていることを示す。 さらに,透明性と信頼性を促進するために説明を紹介する。 GreenLLaMAはまた、特に非解毒性ケースに取り組むための解毒タスク専用の独自のパラフレーズ検出器も提供している。 実験により, クロスプラットフォームコーパスの有効性と, 敵性毒性に対するGreenLLaMAの堅牢性について検討した。

Prior works on detoxification are scattered in the sense that they do not cover all aspects of detoxification needed in a real-world scenario. Notably, prior works restrict the task of developing detoxification models to only a seen subset of platforms, leaving the question of how the models would perform on unseen platforms unexplored. Additionally, these works do not address non-detoxifiability, a phenomenon whereby the toxic text cannot be detoxified without altering the meaning. We propose GreenLLaMA, the first comprehensive end-to-end detoxification framework, which attempts to alleviate the aforementioned limitations. We first introduce a cross-platform pseudo-parallel corpus applying multi-step data processing and generation strategies leveraging ChatGPT. We then train a suite of detoxification models with our cross-platform corpus. We show that our detoxification models outperform the SoTA model trained with human-annotated parallel corpus. We further introduce explanation to promote transparency and trustworthiness. GreenLLaMA additionally offers a unique paraphrase detector especially dedicated for the detoxification task to tackle the non-detoxifiable cases. Through experimental analysis, we demonstrate the effectiveness of our cross-platform corpus and the robustness of GreenLLaMA against adversarial toxicity.
翻訳日:2024-02-27 16:11:23 公開日:2024-02-25
# 異常検出のための注意-GAN:サイバーセキュリティ脅威管理へのカット-エッジアプローチ

Attention-GAN for Anomaly Detection: A Cutting-Edge Approach to Cybersecurity Threat Management ( http://arxiv.org/abs/2402.15945v1 )

ライセンス: Link先を確認
Mohammed Abo Sen(参考訳) 本稿では,異常検出に焦点をあてた,サイバーセキュリティ向上のための革新的な注意-GANフレームワークを提案する。 サイバー脅威の絶え間なく進化する性質から生じる課題に対応するため、提案手法は多様な現実的な合成攻撃シナリオを生成し、データセットを充実させ、脅威識別を改善することを目的としている。 GAN(Generative Adversarial Networks)と注意機構を統合することが提案手法の重要な特徴である。 注意機構は、微妙で複雑な攻撃パターンを検出するのに不可欠な、関連する特徴にフォーカスするモデルの能力を強化する。 さらに、GANは、既知の脅威と出現する脅威を含む、追加のさまざまな攻撃データを生成することによって、データの不足の問題に対処する。 この二重アプローチは、システムは継続的に進化するサイバー攻撃に対して関連性を持ち、効果的であることを保証する。 kdd cupとcicids2017データセットは、このモデルの検証に使用され、異常検出を大幅に改善した。 kddデータセットでは99.69%、cicids2017データセットでは97.93%の精度を達成し、精度、リコール、f1-scoreは97%以上となり、複雑な攻撃パターンの認識に有効性を示している。 本研究は,高度でダイナミックなサイバー脅威に直面した異常検出のためのスケーラブルで適応可能なソリューションを提供することで,サイバーセキュリティに大きく貢献する。 データ拡張のためのGANの探索は、特にデータ制限がサイバーセキュリティシステムの開発を制限する状況において、将来の研究にとって有望な方向を示す。 attention-ganフレームワークは先駆的なアプローチとして登場し、高度なサイバー防衛戦略の新しいベンチマークを設定した。

This paper proposes an innovative Attention-GAN framework for enhancing cybersecurity, focusing on anomaly detection. In response to the challenges posed by the constantly evolving nature of cyber threats, the proposed approach aims to generate diverse and realistic synthetic attack scenarios, thereby enriching the dataset and improving threat identification. Integrating attention mechanisms with Generative Adversarial Networks (GANs) is a key feature of the proposed method. The attention mechanism enhances the model's ability to focus on relevant features, essential for detecting subtle and complex attack patterns. In addition, GANs address the issue of data scarcity by generating additional varied attack data, encompassing known and emerging threats. This dual approach ensures that the system remains relevant and effective against the continuously evolving cyberattacks. The KDD Cup and CICIDS2017 datasets were used to validate this model, which exhibited significant improvements in anomaly detection. It achieved an accuracy of 99.69% on the KDD dataset and 97.93% on the CICIDS2017 dataset, with precision, recall, and F1-scores above 97%, demonstrating its effectiveness in recognizing complex attack patterns. This study contributes significantly to cybersecurity by providing a scalable and adaptable solution for anomaly detection in the face of sophisticated and dynamic cyber threats. The exploration of GANs for data augmentation highlights a promising direction for future research, particularly in situations where data limitations restrict the development of cybersecurity systems. The attention-GAN framework has emerged as a pioneering approach, setting a new benchmark for advanced cyber-defense strategies.
翻訳日:2024-02-27 16:11:03 公開日:2024-02-25
# 基盤モデルの時代にソフトウェア工学を再考する:信頼に値するfmウェアの開発における挑戦のカタログ

Rethinking Software Engineering in the Era of Foundation Models: A Curated Catalogue of Challenges in the Development of Trustworthy FMware ( http://arxiv.org/abs/2402.15943v1 )

ライセンス: Link先を確認
Ahmed E. Hassan, Dayi Lin, Gopi Krishnan Rajbahadur, Keheliya Gallaba, Filipe R. Cogo, Boyuan Chen, Haoxiang Zhang, Kishanthan Thangarajah, Gustavo Ansaldi Oliva, Jiahuei Lin, Wali Mohammad Abdullah, Zhen Ming Jiang(参考訳) 大規模言語モデル(LLM)のような基礎モデル(FM)は、新しいユースケースやビジネスモデルを実現することでソフトウェア開発に革命をもたらした。 FMを用いて構築されたソフトウェアをFMwareと呼ぶ。 FMwareのユニークな特性(プロンプト、エージェント、オーケストレーションの必要性など)とFMの本質的な制限(幻覚など)が組み合わさって、ソフトウェア工学の全く新しい課題へとつながる。 当社の産業経験から、企業FMware開発を非生産的でコストがかかり、リスクが伴う10のSE4FMware課題を特定しました。 本稿では,これらの課題を詳細に議論し,期待するイノベーションへの道について述べる。 次に、FMArtsを紹介します。これは、信頼できるFMウェアのエンジニアリングのためのクレードル・ツー・グラブプラットフォームを構築するための長期的な取り組みです。 最後に (i)FMArtのユニークな特性によって、大規模顧客向けの複雑なFMウェアをタイムリーに設計・開発できることを示す。 (ii)そうすることで学んだことを話し合う。 上記の課題の開示とそれに取り組むための取り組みが、認識を高めるだけでなく、より深く、より深い議論、知識共有、そしてソフトウェア工学の分野にわたる革新的なソリューションを促進することを願っています。

Foundation models (FMs), such as Large Language Models (LLMs), have revolutionized software development by enabling new use cases and business models. We refer to software built using FMs as FMware. The unique properties of FMware (e.g., prompts, agents, and the need for orchestration), coupled with the intrinsic limitations of FMs (e.g., hallucination) lead to a completely new set of software engineering challenges. Based on our industrial experience, we identified 10 key SE4FMware challenges that have caused enterprise FMware development to be unproductive, costly, and risky. In this paper, we discuss these challenges in detail and state the path for innovation that we envision. Next, we present FMArts, which is our long-term effort towards creating a cradle-to-grave platform for the engineering of trustworthy FMware. Finally, we (i) show how the unique properties of FMArts enabled us to design and develop a complex FMware for a large customer in a timely manner and (ii) discuss the lessons that we learned in doing so. We hope that the disclosure of the aforementioned challenges and our associated efforts to tackle them will not only raise awareness but also promote deeper and further discussions, knowledge sharing, and innovative solutions across the software engineering discipline.
翻訳日:2024-02-27 16:10:34 公開日:2024-02-25
# Pythonにおける線形システムのリサイクリング手法の実装と多目的最適化への応用

Implementing Recycling Methods for Linear Systems in Python with an Application to Multiple Objective Optimization ( http://arxiv.org/abs/2402.15941v1 )

ライセンス: Link先を確認
Ainara Garcia, Sihong Xie, Arielle Carr(参考訳) 線形システムの列は、多目的最適化のためのパレートフロントを計算する際に予測子補正法で生じる。 1つのシステムを解く際に生成された情報を捨てるのではなく、その後のシステムの情報をリサイクルする方が有利である。 そこで我々は, 一般的なリサイクル手法を用いて線形システムを解く場合の計算コストの削減を目指す。 本研究では, 係数行列間のマップとともに, リサイクリング最小残差法(rminres法)の性能評価を行った。 これらのメソッドがEnouenなど(2022年)で使われているソフトウェアに完全に統合されるためには、それぞれがPythonとPyTorchの両方で動作するバージョンでなければならない。 ここでは,これらのリサイクル戦略の効率的なPython実装の計算において,我々が遭遇した課題と解決法について論じる。 このプロジェクトの目的はPythonとPyTorchでRMINRESを実装し、計算コストを削減するために確立されたParetoフロントコードに追加することであった。 さらに、PythonとPyTorchでスパース近似マップコードを実装して、将来の作業で並列化できるようにしたいと思っています。

Sequences of linear systems arise in the predictor-corrector method when computing the Pareto front for multi-objective optimization. Rather than discarding information generated when solving one system, it may be advantageous to recycle information for subsequent systems. To accomplish this, we seek to reduce the overall cost of computation when solving linear systems using common recycling methods. In this work, we assessed the performance of recycling minimum residual (RMINRES) method along with a map between coefficient matrices. For these methods to be fully integrated into the software used in Enouen et al. (2022), there must be working version of each in both Python and PyTorch. Herein, we discuss the challenges we encountered and solutions undertaken (and some ongoing) when computing efficient Python implementations of these recycling strategies. The goal of this project was to implement RMINRES in Python and PyTorch and add it to the established Pareto front code to reduce computational cost. Additionally, we wanted to implement the sparse approximate maps code in Python and PyTorch, so that it can be parallelized in future work.
翻訳日:2024-02-27 16:10:09 公開日:2024-02-25
# 複数のツイートパラメータから顧客満足度を検出する機械学習アプローチ

A Machine Learning Approach to Detect Customer Satisfaction From Multiple Tweet Parameters ( http://arxiv.org/abs/2402.15992v1 )

ライセンス: Link先を確認
Md Mahmudul Hasan, Dr. Shaikh Anowarul Fattah(参考訳) インターネット技術が進歩しているため、企業開発の主要な要因の1つは顧客満足である。 オンラインプラットフォームはレビューを共有するための重要な場所になっている。 Twitterは、顧客がよく考えを投稿するプラットフォームの一つだ。 これらのプラットフォーム上でのフライトのレビューは、航空会社ビジネスにとって懸念されている。 ポジティブなレビューは会社の成長を助け、ネガティブなレビューはすぐに収益と評判を損なう可能性がある。 したがって、航空会社は顧客のフィードバックと経験を調べ、競争力を維持するためにサービスを強化することが不可欠です。 しかし、何千ものツイートを調べて分析して顧客の満足度を見つけることは、非常に難しい作業だ。 この面倒なプロセスは、機械学習のアプローチを使ってツイートを分析し、顧客満足度を判断することによって簡単にできる。 機械学習とディープラーニング技術を使って手順を自動化するために、この戦略ですでにいくつかの作業が行われている。 しかし、いずれも本文の感情を評価することに関心がある。 テキストに加えて、そのツイートには時間、場所、ユーザー名、航空会社名なども含まれている。 この追加情報は、モデルの結果を改善するために重要である。 機械学習ベースのソリューションを提供するため、この研究はこれらの品質を含む視点を広げた。 そして、テキストの感情分析以外の追加機能が機械学習ベースのモデルでより良い結果をもたらすのは驚きではない。

Since internet technologies have advanced, one of the primary factors in company development is customer happiness. Online platforms have become prominent places for sharing reviews. Twitter is one of these platforms where customers frequently post their thoughts. Reviews of flights on these platforms have become a concern for the airline business. A positive review can help the company grow, while a negative one can quickly ruin its revenue and reputation. So it's vital for airline businesses to examine the feedback and experiences of their customers and enhance their services to remain competitive. But studying thousands of tweets and analyzing them to find the satisfaction of the customer is quite a difficult task. This tedious process can be made easier by using a machine learning approach to analyze tweets to determine client satisfaction levels. Some work has already been done on this strategy to automate the procedure using machine learning and deep learning techniques. However, they are all purely concerned with assessing the text's sentiment. In addition to the text, the tweet also includes the time, location, username, airline name, and so on. This additional information can be crucial for improving the model's outcome. To provide a machine learning based solution, this work has broadened its perspective to include these qualities. And it has come as no surprise that the additional features beyond text sentiment analysis produce better outcomes in machine learning based models.
翻訳日:2024-02-27 16:04:58 公開日:2024-02-25
# C^3$: 推論効率の良い言語間自然言語理解のための信頼校正モデルカスケード

$C^3$: Confidence Calibration Model Cascade for Inference-Efficient Cross-Lingual Natural Language Understanding ( http://arxiv.org/abs/2402.15991v1 )

ライセンス: Link先を確認
Taixi Lu, Haoyu Wang, Huajie Shao, Jing Gao, Huaxiu Yao(参考訳) 言語間自然言語理解(NLU)は自然言語処理(NLP)において重要な課題である。 近年,多言語事前学習言語モデル (mPLM) はこれらのタスクの性能を大幅に向上させた。 しかし、mplmsは十分なリソースを必要とし、推論中に高い計算コストを発生させ、実世界およびリアルタイムシステムへのデプロイに挑戦する。 既存のモデルカスケード法は、モデル信頼スコアに基づいて、様々なモデルから電流入力を処理できる最も軽量なモデルを選択して推論効率を向上させる。 それでも、深いモデルは自信過剰を示す傾向があり、信頼度分布は言語によって異なる。 これにより、より小さなモデルによる自信あるが誤った予測が放出され、テスト言語をまたいで効果的に一般化する能力が妨げられる。 本研究では,信頼性キャリブレーションモデルカスケード(C^3$)法を提案する。 このアプローチは単純だが効果的であり、カスケード推論に先立ってキャリブレーションを行い、より信頼性の高い予測によってカスケード精度を向上させる。 3つの言語間ベンチマークで実施された大規模な実験は、C^3$が最先端のベースライン全てを著しく上回ることを示した。

Cross-lingual natural language understanding (NLU) is a critical task in natural language processing (NLP). Recent advancements have seen multilingual pre-trained language models (mPLMs) significantly enhance the performance of these tasks. However, mPLMs necessitate substantial resources and incur high computational costs during inference, posing challenges for deployment in real-world and real-time systems. Existing model cascade methods seek to enhance inference efficiency by greedily selecting the lightest model capable of processing the current input from a variety of models, based on model confidence scores. Nonetheless, deep models tend to exhibit overconfidence, and confidence distributions vary across languages. This leads to the emission of confident but incorrect predictions by smaller models, hindering their ability to generalize effectively across test languages. In this study, we introduce a confidence calibration model cascade ($C^3$) method. This approach, simple yet effective, involves calibration prior to cascade inference, thereby enhancing cascade accuracy through more reliable predictions. Extensive experiments conducted on three cross-lingual benchmarks demonstrate that $C^3$ significantly outperforms all state-of-the-art baselines.
翻訳日:2024-02-27 16:04:39 公開日:2024-02-25
# 機械学習資産管理における課題の実証的研究

An Empirical Study of Challenges in Machine Learning Asset Management ( http://arxiv.org/abs/2402.15990v1 )

ライセンス: Link先を確認
Zhimin Zhao, Yihao Chen, Abdul Ali Bangash, Bram Adams, Ahmed E. Hassan(参考訳) 機械学習(ML)では、MLモデル、データセット、アルゴリズム、ツールを含む効率的な資産管理が、リソースの最適化、一貫したパフォーマンス、開発ライフサイクルの合理化に不可欠である。 これにより、イテレーションの迅速化、適応性、開発からデプロイまでの時間短縮、信頼性の高いアウトプットが可能になる。 既存の研究にもかかわらず、MLプロジェクトの成功に不可欠なモデルバージョニング、データトレーサビリティ、コラボレーションといった運用上の課題には、大きな知識ギャップが残っている。 本研究の目的は,開発者フォーラムやプラットフォームから15,065件の投稿を分析し,質問を分類し,BERTopicを用いて課題を抽出し,オープンカードソートやBERTopicクラスタリングによるソリューションの同定を行うことである。 我々は,アセットマネジメントの課題に関連する133のトピックを,ソフトウェアの依存性,モデル展開,モデルトレーニングなど16のマクロトピックに分類した。 また、79のソリューショントピックを見つけ、18のマクロトピックに分類し、ソフトウェア依存性、機能開発、ファイル管理を重要ソリューションとして強調します。 この研究は、特定された痛点のさらなる探究の必要性と、学界、産業、研究コミュニティにおける協力的努力の重要性を基礎としている。

In machine learning (ML), efficient asset management, including ML models, datasets, algorithms, and tools, is vital for resource optimization, consistent performance, and a streamlined development lifecycle. This enables quicker iterations, adaptability, reduced development-to-deployment time, and reliable outputs. Despite existing research, a significant knowledge gap remains in operational challenges like model versioning, data traceability, and collaboration, which are crucial for the success of ML projects. Our study aims to address this gap by analyzing 15,065 posts from developer forums and platforms, employing a mixed-method approach to classify inquiries, extract challenges using BERTopic, and identify solutions through open card sorting and BERTopic clustering. We uncover 133 topics related to asset management challenges, grouped into 16 macro-topics, with software dependency, model deployment, and model training being the most discussed. We also find 79 solution topics, categorized under 18 macro-topics, highlighting software dependency, feature development, and file management as key solutions. This research underscores the need for further exploration of identified pain points and the importance of collaborative efforts across academia, industry, and the research community.
翻訳日:2024-02-27 16:04:19 公開日:2024-02-25
# pidformer: 制御理論を満たしたトランスフォーマー

PIDformer: Transformer Meets Control Theory ( http://arxiv.org/abs/2402.15989v1 )

ライセンス: Link先を確認
Tam Nguyen, C\'esar A. Uribe, Tan M. Nguyen, Richard G. Baraniuk(参考訳) 本稿では,入力の破損と出力表現におけるランク崩壊という,トランスフォーマーアーキテクチャの2つの主な欠点に対処する。 我々は,自発的状態空間モデルとして自発的アテンションを提示し,その解の滑らかさを本質的に促進し,低ランク出力と表現能力の低下をもたらす。 さらに、モデルの定常解は入力摂動に敏感である。 モデルに基準点を持つPID(Proportional-Integral-Derivative)閉ループフィードバック制御システムを導入し,ロバスト性と表現能力の向上を図る。 この統合は、モデルの安定性を高めながら高周波の詳細を保存することを目的としている。 制御された状態空間モデルは理論的に堅牢であることが証明され、ランク崩壊に対処できる。 この制御フレームワークにより,ソフトマックス変圧器に内在する段差問題を緩和し,ロバスト性の向上を目的とした新しい変圧器 PID 制御変圧器 (PIDformer) を導出する。 我々は,オブジェクト分類,画像分割,言語モデリングなど,様々な実践課題において,ベースライントランスフォーマーに対する利点と頑健さのモデルを実証的に評価する。

In this work, we address two main shortcomings of transformer architectures: input corruption and rank collapse in their output representation. We unveil self-attention as an autonomous state-space model that inherently promotes smoothness in its solutions, leading to lower-rank outputs and diminished representation capacity. Moreover, the steady-state solution of the model is sensitive to input perturbations. We incorporate a Proportional-Integral-Derivative (PID) closed-loop feedback control system with a reference point into the model to improve robustness and representation capacity. This integration aims to preserve high-frequency details while bolstering model stability, rendering it more noise-resilient. The resulting controlled state-space model is theoretically proven robust and adept at addressing the rank collapse. Motivated by this control framework, we derive a novel class of transformers, PID-controlled Transformer (PIDformer), aimed at improving robustness and mitigating the rank-collapse issue inherent in softmax transformers. We empirically evaluate the model for advantages and robustness against baseline transformers across various practical tasks, including object classification, image segmentation, and language modeling.
翻訳日:2024-02-27 16:03:55 公開日:2024-02-25
# 公正なグラフ異常検出に向けて:問題,新しいデータセット,評価

Towards Fair Graph Anomaly Detection: Problem, New Datasets, and Evaluation ( http://arxiv.org/abs/2402.15988v1 )

ライセンス: Link先を確認
Neng Kai Nigel Neo, Yeon-Chang Lee, Yiqiao Jin, Sang-Wook Kim, Srijan Kumar(参考訳) Fair Graph Anomaly Detection (FairGAD) 問題は、公正性を確保しつつ、性別や政治的傾きなどの敏感なサブグループからの個人に対するバイアス予測を避けながら、入力グラフ内の異常ノードを正確に検出することを目的としている。 グラフの公正性は検索・ランク付けシステムにおける誤情報検出などの異常検出領域において特に重要である。 しかし、現在の文献ではこの問題を包括的に論じておらず、FairGADの研究のための実際のグラフ構造、異常ラベル、センシティブな属性を含む現実的なデータセットも提供していない。 このギャップを埋めるために,fairgad問題の形式的定義を導入し,世界規模のソーシャルメディアプラットフォームであるredditとtwitterから構築した2つの新しいグラフデータセットを提案する。 これらのデータセットはそれぞれ9,000ノードと47,000ノードの120万エッジと40万エッジで構成され、政治的傾向を機密属性として、誤った情報スプレッダーを異常ラベルとして活用している。 研究コミュニティが現在使用している合成データセットとFairGADデータセットとは大きく異なることを示す。 これらの新しいデータセットは、ソーシャルネットワークの複雑さを捉える現実的なデータを提供することによって、FairGADにとって重要な価値を提供する。 そこで本研究では,既存gadおよび非graphの5つのフェアネス法におけるパフォーマンス・フェアネストレードオフについて検討し,fairgad問題に対する効果と限界について考察した。

The Fair Graph Anomaly Detection (FairGAD) problem aims to accurately detect anomalous nodes in an input graph while ensuring fairness and avoiding biased predictions against individuals from sensitive subgroups such as gender or political leanings. Fairness in graphs is particularly crucial in anomaly detection areas such as misinformation detection in search/ranking systems, where decision outcomes can significantly affect individuals. However, the current literature does not comprehensively discuss this problem, nor does it provide realistic datasets that encompass actual graph structures, anomaly labels, and sensitive attributes for research in FairGAD. To bridge this gap, we introduce a formal definition of the FairGAD problem and present two novel graph datasets constructed from the globally prominent social media platforms Reddit and Twitter. These datasets comprise 1.2 million and 400,000 edges associated with 9,000 and 47,000 nodes, respectively, and leverage political leanings as sensitive attributes and misinformation spreaders as anomaly labels. We demonstrate that our FairGAD datasets significantly differ from the synthetic datasets used currently by the research community. These new datasets offer significant values for FairGAD by providing realistic data that captures the intricacies of social networks. Using our datasets, we investigate the performance-fairness trade-off in eleven existing GAD and non-graph AD methods on five state-of-the-art fairness methods, which sheds light on their effectiveness and limitations in addressing the FairGAD problem.
翻訳日:2024-02-27 16:03:35 公開日:2024-02-25
# 大言語モデルにおける評価バイアスの緩和

Likelihood-based Mitigation of Evaluation Bias in Large Language Models ( http://arxiv.org/abs/2402.15987v1 )

ライセンス: Link先を確認
Masanari Ohi, Masahiro Kaneko, Ryuto Koike, Mengsay Loem, Naoaki Okazaki(参考訳) 大規模言語モデル(LLM)は、自然言語生成タスクを自動メトリクスとして評価するために広く使われている。 しかし、LLMの文に対する妥当性の尺度は、語順や文構造などの文の表層的差異によって異なる可能性がある。 したがって、LLMが評価に使用される場合、高い確率で文を上書きし、低い確率で文を下書きする確率バイアスが存在する可能性がある。 本稿では,LSMを用いた評価装置における確率バイアスの存在と影響について検討する。 また,確率バイアスを軽減する手法を提案する。 本手法は,コンテキスト内学習の例として,非常に偏りの強いインスタンスを用いる。 テキスト・テキスト・文法的誤り訂正タスクの評価実験により, テスト対象のLLMには潜在的なバイアスが現れることがわかった。 さらに,提案手法は,このバイアスを軽減し,評価性能(モデルと人間のスコアの相関性)を著しく向上させた。

Large Language Models (LLMs) are widely used to evaluate natural language generation tasks as automated metrics. However, the likelihood, a measure of LLM's plausibility for a sentence, can vary due to superficial differences in sentences, such as word order and sentence structure. It is therefore possible that there might be a likelihood bias if LLMs are used for evaluation: they might overrate sentences with higher likelihoods while underrating those with lower likelihoods. In this paper, we investigate the presence and impact of likelihood bias in LLM-based evaluators. We also propose a method to mitigate the likelihood bias. Our method utilizes highly biased instances as few-shot examples for in-context learning. Our experiments in evaluating the data-to-text and grammatical error correction tasks reveal that several LLMs we test display a likelihood bias. Furthermore, our proposed method successfully mitigates this bias, also improving evaluation performance (in terms of correlation of models with human scores) significantly.
翻訳日:2024-02-27 16:03:07 公開日:2024-02-25
# 双極子トラップにおける複数の低温分子の光解離

Photoassociation of multiple cold molecules in a dipole trap ( http://arxiv.org/abs/2402.15986v1 )

ライセンス: Link先を確認
Li Li, Yi-Jia Liu, Xiao-Long Zhou, Ze-Min Shen, Si-Jian He, Zhao-Di Liu, and Jian Wang(参考訳) コールド分子の生成は、超低温化学、量子計算、量子力学など、関連する研究が進んだコールド原子や分子の分野における中核的なトピックである。 原子相空間密度の高い光双極子トラップは、低温分子の生成とトラップのために広く行われており、また、複数の低温分子の形成と動力学研究のためにさらに発展することができる。 この研究において、rb2分子は磁気光学トラップに光結合し、複数の光結合の正確な数値的参照を提供する正確な振動分光を得る。 光双極子トラップにおける光解離の厳しい要件を達成することにより、冷分子光解離過程をよく探求し、光双極子トラップにおいて、異なる可視性冷分子を初めて形成する。 この方法は、単一の光双極子トラップで異なる内部状態の様々な分子や原子種を同時に光解離させ、冷分子衝突ダイナミクスのような多種多様な冷分子の研究を進めるために普遍的に拡張することができる。

The generation of cold molecules is a core topic in the field of cold atoms and molecules, which has advanced relevant research like ultracold chemistry, quantum computation, and quantum metrology. With high atomic phase space density, optical dipole trap has been widely performed to prepare and trap cold molecules, and can also be further developed for multiple cold molecule formation and dynamics study. In this work, Rb2 molecules are photoassociated in the magneto-optical trap to obtain precise rovibrational spectroscopy, which provides accurate numerical references for multiple photoassociations. By achieving the harsh requirements of photoassociation in the optical dipole trap, the cold molecule photoassociation process is well explored, and different rovibrational cold molecules are formed in the optical dipole trap for the first time. This method can be universally extended to simultaneously photoassociate various molecules with different internal states or atomic species in just one optical dipole trap, and then advance generous cold molecule research such as cold molecule collision dynamics.
翻訳日:2024-02-27 16:02:53 公開日:2024-02-25
# HuBERTを用いたイヌ言語の音韻的・語彙的発見

Phonetic and Lexical Discovery of a Canine Language using HuBERT ( http://arxiv.org/abs/2402.15985v1 )

ライセンス: Link先を確認
Xingyuan Li, Sinong Wang, Zeyu Xie, Mengyue Wu, Kenny Q. Zhu(参考訳) 本稿では,犬の発声における潜在的なコミュニケーションパターンの先駆的探究を探究し,犬発声の音響単位を見つけるために限られたデータセットに人間の事前知識を多く依存する従来の言語分析障壁を超越する。 我々は,HuBERTを用いた自己教師型アプローチを提案し,音素ラベルの正確な分類と,犬の発声における初発語彙を示唆する発声パターンの同定を可能にした。 以上の結果より, 犬声の発声シーケンス全体をカバーする, 犬語彙の音響的整合性が示唆された。 さらに,Web ベースの犬の発声ラベリングシステムを開発した。 このシステムは,ユーザがアップロードした犬の音声に,語彙に含まれる音素n-gramをハイライトすることができる。

This paper delves into the pioneering exploration of potential communication patterns within dog vocalizations and transcends traditional linguistic analysis barriers, which heavily relies on human priori knowledge on limited datasets to find sound units in dog vocalization. We present a self-supervised approach with HuBERT, enabling the accurate classification of phoneme labels and the identification of vocal patterns that suggest a rudimentary vocabulary within dog vocalizations. Our findings indicate a significant acoustic consistency in these identified canine vocabulary, covering the entirety of observed dog vocalization sequences. We further develop a web-based dog vocalization labeling system. This system can highlight phoneme n-grams, present in the vocabulary, in the dog audio uploaded by users.
翻訳日:2024-02-27 16:02:34 公開日:2024-02-25
# 様々な深さ2ニューラルネットに対するリッジレット変換を導出する統一フーリエスライス法

A unified Fourier slice method to derive ridgelet transform for a variety of depth-2 neural networks ( http://arxiv.org/abs/2402.15984v1 )

ライセンス: Link先を確認
Sho Sonoda, Isao Ishikawa, Masahiro Ikeda(参考訳) ニューラルネットワークのパラメータを調べるには、各ニューロンのパラメータを調べるよりもパラメータの分布を調べる方が容易である。 リッジレット変換は、与えられた関数$f$をパラメータ分布$\gamma$にマッピングし、ネットワーク$\matht{NN}[\gamma]$が$f$、すなわち$\matht{NN}[\gamma]=f$を再現する擬逆演算子である。 ユークリッド空間上の深さ-2 完全連結ネットワークに対して、リッジレット変換は閉形式式まで発見されており、パラメータの分布を記述できる。 しかし、様々な現代のニューラルネットワークアーキテクチャでは、クローズドフォーム表現は知られていない。 本稿では,有限体上のネットワーク $\mathbb{F}_p$,抽象ヒルベルト空間上の群畳み込みネットワーク $\mathcal{H}$,非コンパクト対称空間上の完全連結ネットワーク $G/K$,プール層,あるいは$d$平面リッジレット変換など,様々な現代的なネットワークに対して,フーリエ式を用いてリッジレット変換を導出する体系的手法を説明する。

To investigate neural network parameters, it is easier to study the distribution of parameters than to study the parameters in each neuron. The ridgelet transform is a pseudo-inverse operator that maps a given function $f$ to the parameter distribution $\gamma$ so that a network $\mathtt{NN}[\gamma]$ reproduces $f$, i.e. $\mathtt{NN}[\gamma]=f$. For depth-2 fully-connected networks on a Euclidean space, the ridgelet transform has been discovered up to the closed-form expression, thus we could describe how the parameters are distributed. However, for a variety of modern neural network architectures, the closed-form expression has not been known. In this paper, we explain a systematic method using Fourier expressions to derive ridgelet transforms for a variety of modern networks such as networks on finite fields $\mathbb{F}_p$, group convolutional networks on abstract Hilbert space $\mathcal{H}$, fully-connected networks on noncompact symmetric spaces $G/K$, and pooling layers, or the $d$-plane ridgelet transform.
翻訳日:2024-02-27 16:02:21 公開日:2024-02-25
# Occam's Razorによる重みのシェービング:Marginal Likelihoodを用いたニューラルネットワークのベイジアンスカラー化

Shaving Weights with Occam's Razor: Bayesian Sparsification for Neural Networks Using the Marginal Likelihood ( http://arxiv.org/abs/2402.15978v1 )

ライセンス: Link先を確認
Rayen Dhahri, Alexander Immer, Betrand Charpentier, Stephan G\"unnemann, Vincent Fortuin(参考訳) ニューラルネットワークのスパーシフィケーションは、計算時間とメモリコストを節約するための有望な手段であり、特に、多くの成功したAIモデルが"消費者ハードウェアに“展開するには大きすぎる。 多くの作業は異なる重量の刈り取り基準に焦点を当てているが、ネットワークの全体的な分離性、すなわち品質の損失なしに刈り取る能力は見過ごされがちである。 Sparsifiability via the Marginal chance (SpaM) は、ニューラルネットワークをよりスパシビリティにするために、ベイジアン限界可能性(Bayesian marginal chance)を用いることの有効性を強調したプルーニングフレームワークである。 私たちのアプローチでは、構造化と非構造化の両方でデータを説明する最もスパーシブルなモデルを選択するoccamの自動カミソリを実装しています。 さらに,ラプラス近似における事前計算後のヘッセン近似は,多くの既存の(より高価な)アプローチよりも優れている安価なプルーニング基準を定義するために再利用可能であることを示す。 我々は、さまざまなニューラルネットワークアーキテクチャとデータセットにわたって、フレームワーク、特に高いスパーシティレベルでの有効性を実証する。

Neural network sparsification is a promising avenue to save computational time and memory costs, especially in an age where many successful AI models are becoming too large to na\"ively deploy on consumer hardware. While much work has focused on different weight pruning criteria, the overall sparsifiability of the network, i.e., its capacity to be pruned without quality loss, has often been overlooked. We present Sparsifiability via the Marginal likelihood (SpaM), a pruning framework that highlights the effectiveness of using the Bayesian marginal likelihood in conjunction with sparsity-inducing priors for making neural networks more sparsifiable. Our approach implements an automatic Occam's razor that selects the most sparsifiable model that still explains the data well, both for structured and unstructured sparsification. In addition, we demonstrate that the pre-computed posterior Hessian approximation used in the Laplace approximation can be re-used to define a cheap pruning criterion, which outperforms many existing (more expensive) approaches. We demonstrate the effectiveness of our framework, especially at high sparsity levels, across a range of different neural network architectures and datasets.
翻訳日:2024-02-27 16:01:51 公開日:2024-02-25
# 小腸空腸の明瞭度向上のための画像強調法

An Image Enhancement Method for Improving Small Intestinal Villi Clarity ( http://arxiv.org/abs/2402.15977v1 )

ライセンス: Link先を確認
Shaojie Zhang, Yinghui Wang, Peixuan Liu, Wei Li, Jinlong Yang, Tao Yan, Yukai Wang, Liangyi Huang, Mingfeng Wang, and Ibragim R. Atadjanov(参考訳) 本稿では,Wireless Capsule Endoscopy (WCE)画像における小腸ビリの明瞭度向上を目的とした画像強調手法を初めて提示する。 この方法はまず,ガイドフィルタを用いて小腸ビリ画像の低周波成分と高周波成分を分離する。 その後、低周波成分に基づいて適応光利得因子を生成し、小さな腸ビリ画像の異なる領域におけるラプラシア作用素の畳み込み結果から適応勾配利得因子を導出する。 そして、得られた光利得率と勾配利得率を組み合わせて高周波成分を増強する。 最後に、拡張された高周波成分を原画像と融合させて、WCE小腸ヴィリ画像のエッジを適応的に鋭くする。 実験により,WCE画像強調法と比較して,本手法は小腸ビリル像の縁部の詳細をアクセントするだけでなく,ノイズ増幅を巧みに抑制し,エッジオーバーシュートの発生を防止できることを確認した。

This paper presents, for the first time, an image enhancement methodology designed to enhance the clarity of small intestinal villi in Wireless Capsule Endoscopy (WCE) images. This method first separates the low-frequency and high-frequency components of small intestinal villi images using guided filtering. Subsequently, an adaptive light gain factor is generated based on the low-frequency component, and an adaptive gradient gain factor is derived from the convolution results of the Laplacian operator in different regions of small intestinal villi images. The obtained light gain factor and gradient gain factor are then combined to enhance the high-frequency components. Finally, the enhanced high-frequency component is fused with the original image to achieve adaptive sharpening of the edges of WCE small intestinal villi images. The experiments affirm that, compared to established WCE image enhancement methods, our approach not only accentuates the edge details of WCE small intestine villi images but also skillfully suppresses noise amplification, thereby preventing the occurrence of edge overshooting.
翻訳日:2024-02-27 16:01:26 公開日:2024-02-25
# 構造的知識駆動型メタラーニングによる車両ネットワークにおけるタスクオフロードとコミュニケーション・センシング・コンピューティング

Structural Knowledge-Driven Meta-Learning for Task Offloading in Vehicular Networks with Integrated Communications, Sensing and Computing ( http://arxiv.org/abs/2402.15972v1 )

ライセンス: Link先を確認
Ruijin Sun, Yao Wen, Nan Cheng, Wei Wan, Rong Chai, Yilong Hui(参考訳) タスクオフロード(Task offloading)は、オンボードコンピューティングリソースの制限により、計算集約性および遅延に敏感な車両用アプリケーションの厳格な要件を満たすための潜在的なソリューションである。 しかし、圧倒的なアップロードトラフィックは、許容できないアップロード時間につながる可能性がある。 この問題に対処するため、環境データを入力とするタスクでは、複数のセンサを備えた道路側ユニット(RSU)が認識したデータを直接的に利用することができ、統合通信、センシング、コンピューティング(I-CSC)を備えた新しいタスクオフロードパラダイムが実現される。 このパラダイムでは、車両は検知されたデータをrsusにアップロードするか、オフロード中にrsusにコンピューティング命令を送信するかを選択することができる。 本稿では、計算モードとネットワークリソースの最適化により、I-CSCベースのタスクオフロード問題を調査し、各タスクのレイテンシを保証しながら、リソース消費によるコストを削減する。 この非凸問題は、代わりに分割された4つのサブプロブレムを最小化する交代最小化(AM)アルゴリズムによって処理できるが、高い計算複雑性と局所最適解をもたらす。 この課題に対処するために,モデルに基づくAMアルゴリズムとニューラルネットワークの両方を含む,創造的構造的知識駆動型メタラーニング(SKDML)手法を提案する。 具体的には、AMアルゴリズムの反復的構造(構造知識とも呼ばれる)を借りて、提案したSKDMLは、AMアルゴリズムのハンドクラフトに代えて、各サブプロブレムの変数を更新するための適応最適化器を学習するために、長短期記憶(LSTM)ネットワークベースのメタラーニングを採用する。

Task offloading is a potential solution to satisfy the strict requirements of computation-intensive and latency-sensitive vehicular applications due to the limited onboard computing resources. However, the overwhelming upload traffic may lead to unacceptable uploading time. To tackle this issue, for tasks taking environmental data as input, the data perceived by roadside units (RSU) equipped with several sensors can be directly exploited for computation, resulting in a novel task offloading paradigm with integrated communications, sensing and computing (I-CSC). With this paradigm, vehicles can select to upload their sensed data to RSUs or transmit computing instructions to RSUs during the offloading. By optimizing the computation mode and network resources, in this paper, we investigate an I-CSC-based task offloading problem to reduce the cost caused by resource consumption while guaranteeing the latency of each task. Although this non-convex problem can be handled by the alternating minimization (AM) algorithm that alternatively minimizes the divided four sub-problems, it leads to high computational complexity and local optimal solution. To tackle this challenge, we propose a creative structural knowledge-driven meta-learning (SKDML) method, involving both the model-based AM algorithm and neural networks. Specifically, borrowing the iterative structure of the AM algorithm, also referred to as structural knowledge, the proposed SKDML adopts long short-term memory (LSTM) network-based meta-learning to learn an adaptive optimizer for updating variables in each sub-problem, instead of the handcrafted counterpart in the AM algorithm.
翻訳日:2024-02-27 16:01:07 公開日:2024-02-25
# 2成分スパイクニューロンのネットワークに対する効率的なオンライン学習

Efficient Online Learning for Networks of Two-Compartment Spiking Neurons ( http://arxiv.org/abs/2402.15969v1 )

ライセンス: Link先を確認
Yujia Yin, Xinyi Chen, Chenxiang Ma, Jibin Wu, Kay Chen Tan(参考訳) 脳にインスパイアされたスパイキングニューラルネットワーク(SNN)は、時間信号処理における優れた性能とエネルギー効率のため、かなりの研究関心を集めている。 近年,Two-compartment LIF(TC-LIF)モデルと呼ばれる新しいマルチコンパートメントスパイクニューロンモデルが提案され,シーケンシャルなモデリングに顕著な能力を示した。 しかし、TC-LIFモデルのトレーニングでは、大きなメモリ消費と、BPTT(Backproagation Through Time)アルゴリズムに関連する勾配の解消の問題から生じる課題が提示される。 これらの課題に対処するために、オンライン学習方法論が有望な解決策として現れます。 しかし、これまでSNNにおけるオンライン学習手法の適用は主に、簡易化したLeaky Integrate-and-Fire(LIF)ニューロンモデルに限られてきた。 本稿では,tc-lifニューロンのネットワークに特化したオンライン学習手法を提案する。 さらに,オンライン学習シナリオにおける時間情報統合の強化を念頭に設計したAdaptive TC-LIFと呼ばれる改良されたTC-LIFニューロンモデルを提案する。 様々な逐次ベンチマークで実施した広範囲な実験により,本手法は,オンライン学習の学習効率とハードウェアフレンドリーさを取り入れつつ,tc-lifニューロンの優れた逐次モデリング能力を良好に維持できることが証明された。 結果として、時間信号の処理にニューロモルフィックなソリューションを利用する多くの機会を提供する。

The brain-inspired Spiking Neural Networks (SNNs) have garnered considerable research interest due to their superior performance and energy efficiency in processing temporal signals. Recently, a novel multi-compartment spiking neuron model, namely the Two-Compartment LIF (TC-LIF) model, has been proposed and exhibited a remarkable capacity for sequential modelling. However, training the TC-LIF model presents challenges stemming from the large memory consumption and the issue of gradient vanishing associated with the Backpropagation Through Time (BPTT) algorithm. To address these challenges, online learning methodologies emerge as a promising solution. Yet, to date, the application of online learning methods in SNNs has been predominantly confined to simplified Leaky Integrate-and-Fire (LIF) neuron models. In this paper, we present a novel online learning method specifically tailored for networks of TC-LIF neurons. Additionally, we propose a refined TC-LIF neuron model called Adaptive TC-LIF, which is carefully designed to enhance temporal information integration in online learning scenarios. Extensive experiments, conducted on various sequential benchmarks, demonstrate that our approach successfully preserves the superior sequential modeling capabilities of the TC-LIF neuron while incorporating the training efficiency and hardware friendliness of online learning. As a result, it offers a multitude of opportunities to leverage neuromorphic solutions for processing temporal signals.
翻訳日:2024-02-27 16:00:35 公開日:2024-02-25
# CoDream:異種モデルによる連合集約モデルの代わりに夢を変える

CoDream: Exchanging dreams instead of models for federated aggregation with heterogeneous models ( http://arxiv.org/abs/2402.15968v1 )

ライセンス: Link先を確認
Abhishek Singh, Gauri Gupta, Ritvik Kapila, Yichuan Shi, Alex Dang, Sheshank Shankar, Mohammed Ehab, Ramesh Raskar(参考訳) フェデレーション学習(fl)は、モデルパラメータを集約することで、分散データ間の機械学習モデルの協調的最適化を可能にする。 我々のアプローチは、モデルパラメータの代わりにモデルから派生した「知識」を集約することで、この概念を拡張します。 本稿では,入力データ空間におけるフェデレーション最適化を用いたランダム初期化データを協調的に最適化する,新しいフレームワークである \codreamを提案する。 私たちの重要な洞察は、このデータを共同で最適化することで、グローバルなデータ分布の特性を効果的に捉えることができるということです。 データ空間における知識の共有は、(1)モデルに依存しない共同学習、すなわち異なるクライアントは異なるモデルアーキテクチャを持つことができる;(2)モデルサイズに依存しないコミュニケーション、モデルパラメータに対するスケーラビリティの懸念を排除する;(3)セキュアアグリゲーションとの互換性、すなわち連合学習のプライバシーの利点を維持する;(4)パーソナライズ学習のために共有される知識の適応的最適化を可能にする。 モデルパラメータを共有しないにもかかわらず、標準的なFLタスクで \codream を実証的に検証する。 私たちのコード: https://mitmedialab.github.io/codream.github.io/

Federated Learning (FL) enables collaborative optimization of machine learning models across decentralized data by aggregating model parameters. Our approach extends this concept by aggregating "knowledge" derived from models, instead of model parameters. We present a novel framework called \codream, where clients collaboratively optimize randomly initialized data using federated optimization in the input data space, similar to how randomly initialized model parameters are optimized in FL. Our key insight is that jointly optimizing this data can effectively capture the properties of the global data distribution. Sharing knowledge in data space offers numerous benefits: (1) model-agnostic collaborative learning, i.e., different clients can have different model architectures; (2) communication that is independent of the model size, eliminating scalability concerns with model parameters; (3) compatibility with secure aggregation, thus preserving the privacy benefits of federated learning; (4) allowing of adaptive optimization of knowledge shared for personalized learning. We empirically validate \codream on standard FL tasks, demonstrating competitive performance despite not sharing model parameters. Our code: https://mitmedialab.github.io/codream.github.io/
翻訳日:2024-02-27 16:00:10 公開日:2024-02-25
# 離散単位を用いた英語音声翻訳への直接パンジャビ

Direct Punjabi to English speech translation using discrete units ( http://arxiv.org/abs/2402.15967v1 )

ライセンス: Link先を確認
Prabhjot Kaur, L. Andrew M. Bush, Weisong Shi(参考訳) 音声から音声への翻訳は、テキストからテキストへの翻訳システムと同じレベルに達していない。 現在の音声技術は、7000以上の言語が世界中で話されており、人口の半分以上がそのような技術や共有体験を奪われている。 音声アシスタント技術(ソーシャルロボットや音声テキストアプリなど)と音声コンテンツ(ポッドキャストや講義など)が普及するにつれ、この技術がすべて利用可能になるのは、これまで以上に重要だ。 音声翻訳は、技術的格差を緩和し、より包括的な社会を作る上で重要な役割を果たす。 低リソース言語のための音声翻訳研究に寄与する動機として,punjabi to englishと呼ばれる言語に対して,直接音声翻訳モデルを提案する。 さらに,トランスフォーマチック翻訳モデルの入力として,離散音響単位と呼ばれる音声の離散表現を用いた場合の性能について検討する。 Unit-to-Unit Translation (U2UT) と略されるこのモデルは、ソース言語の独立したユニットのシーケンス(翻訳される言語)を取り、ターゲット言語の独立したユニットのシーケンス(翻訳される言語)を出力する。 以上の結果から,U2UTモデルは3.69BLEUスコアによるS2UTモデルよりも優れた性能を示した。

Speech-to-speech translation is yet to reach the same level of coverage as text-to-text translation systems. The current speech technology is highly limited in its coverage of over 7000 languages spoken worldwide, leaving more than half of the population deprived of such technology and shared experiences. With voice-assisted technology (such as social robots and speech-to-text apps) and auditory content (such as podcasts and lectures) on the rise, ensuring that the technology is available for all is more important than ever. Speech translation can play a vital role in mitigating technological disparity and creating a more inclusive society. With a motive to contribute towards speech translation research for low-resource languages, our work presents a direct speech-to-speech translation model for one of the Indic languages called Punjabi to English. Additionally, we explore the performance of using a discrete representation of speech called discrete acoustic units as input to the Transformer-based translation model. The model, abbreviated as Unit-to-Unit Translation (U2UT), takes a sequence of discrete units of the source language (the language being translated from) and outputs a sequence of discrete units of the target language (the language being translated to). Our results show that the U2UT model performs better than the Speech-to-Unit Translation (S2UT) model by a 3.69 BLEU score.
翻訳日:2024-02-27 15:59:43 公開日:2024-02-25
# 自動微分の実装のためのステップバイステップ入門

A Step-by-step Introduction to the Implementation of Automatic Differentiation ( http://arxiv.org/abs/2402.16020v1 )

ライセンス: Link先を確認
Yu-Hsueh Fang, He-Zhe Lin, Jie-Jyun Liu, and Chih-Jen Lin(参考訳) 自動微分はディープラーニングの重要な要素である。 この話題はよく研究されており、Baydin et al. (2018) のような優れた調査でも基本的な概念を明確に記述することができる。 さらに、自動微分の実装が、今や一般的なディープラーニングフレームワークの重要な部分となっている。 しかし,複雑さのため,学生に既存システムの実装を直接教えることは不可能ではないにせよ困難である。 一方,授業が基本概念に終止符を打つと,学生は実践の実現を意識できない。 例えば、自動微分を教える際に計算グラフに言及することが多いが、学生はそれをどのように実装して使うのか疑問に思う。 本稿では,簡単な自動微分システムを実装するステップバイステップを導入することで,このギャップを部分的に埋める。 数学的概念と実装を合理化する。 さらに、各実装の背後にあるモチベーションを与えて、設定全体が非常に自然になるようにします。

Automatic differentiation is a key component in deep learning. This topic is well studied and excellent surveys such as Baydin et al. (2018) have been available to clearly describe the basic concepts. Further, sophisticated implementations of automatic differentiation are now an important part of popular deep learning frameworks. However, it is difficult, if not impossible, to directly teach students the implementation of existing systems due to the complexity. On the other hand, if the teaching stops at the basic concept, students fail to sense the realization of an implementation. For example, we often mention the computational graph in teaching automatic differentiation, but students wonder how to implement and use it. In this document, we partially fill the gap by giving a step by step introduction of implementing a simple automatic differentiation system. We streamline the mathematical concepts and the implementation. Further, we give the motivation behind each implementation detail, so the whole setting becomes very natural.
翻訳日:2024-02-27 15:55:48 公開日:2024-02-25
# 暗黙的線形層のスペクトル抽出とクリッピング

Spectrum Extraction and Clipping for Implicitly Linear Layers ( http://arxiv.org/abs/2402.16017v1 )

ライセンス: Link先を確認
Ali Ebrahimpour Boroojeny, Matus Telgarsky, Hari Sundaram(参考訳) 我々は,すべての標準畳み込み層と高密度層を含む多層層群である暗黙線形作用素のスペクトルを効率よく正確に計算し,制御する上で,自動微分の有効性を示す。 一般的な畳み込み層に対して正しい第1の切り抜き法を提案し, 先行作業の正確性問題の原因となる表現制限を照明する。 畳み込み層と結合した場合のバッチ正規化層の効果について検討し, クリップ法をその構成にどのように適用できるかを示す。 アルゴリズムの精度と性能を最先端の手法と比較することにより,より正確かつ効率的で,より一般化と逆ロバスト性が向上することを示す。 メソッドを使用するためのコードはhttps://github.com/Ali-E/FastClip.orgで公開しています。

We show the effectiveness of automatic differentiation in efficiently and correctly computing and controlling the spectrum of implicitly linear operators, a rich family of layer types including all standard convolutional and dense layers. We provide the first clipping method which is correct for general convolution layers, and illuminate the representational limitation that caused correctness issues in prior work. We study the effect of the batch normalization layers when concatenated with convolutional layers and show how our clipping method can be applied to their composition. By comparing the accuracy and performance of our algorithms to the state-of-the-art methods, using various experiments, we show they are more precise and efficient and lead to better generalization and adversarial robustness. We provide the code for using our methods at https://github.com/Ali-E/FastClip.
翻訳日:2024-02-27 15:55:34 公開日:2024-02-25
# 大規模科学計算のためのフレキシブル機械学習モデルの構築

Building Flexible Machine Learning Models for Scientific Computing at Scale ( http://arxiv.org/abs/2402.16014v1 )

ライセンス: Link先を確認
Tianyu Chen, Haoyi Zhou, Ying Li, Hao Wang, Chonghan Gao, Shanghang Zhang, Jianxin Li(参考訳) OmniArchは、多分野の科学計算において基礎モデルを構築するために設計されたパラダイムシフトアプローチである。 OmniArchの事前トレーニングには、多段階の時空間データを処理する多目的パイプラインが含まれており、問題の学習をスケーラブルな自動回帰タスクにキャストする一方、我々の新しい物理情報強化学習(PIRL)技術は、微調整時の物理法則の整合性を保証する。 包括的なPDEBenchデータセットに基づいて事前トレーニングされたOmniArchは、1D, 2D, 3D PDEの新たなパフォーマンスベンチマークを設定するだけでなく、数ショットとゼロショットの学習アプローチによる新しい物理への例外的な適応性も示している。 このモデルの表現はさらに逆問題解決にまで拡張され、工学応用と物理学発見のためのAI対応科学コンピューティング(AI4SC)基盤モデルの変革の可能性を強調している。

Foundation models have revolutionized knowledge acquisition across domains, and our study introduces OmniArch, a paradigm-shifting approach designed for building foundation models in multi-physics scientific computing. OmniArch's pre-training involves a versatile pipeline that processes multi-physics spatio-temporal data, casting forward problem learning into scalable auto-regressive tasks, while our novel Physics-Informed Reinforcement Learning (PIRL) technique during fine-tuning ensures alignment with physical laws. Pre-trained on the comprehensive PDEBench dataset, OmniArch not only sets new performance benchmarks for 1D, 2D and 3D PDEs but also demonstrates exceptional adaptability to new physics via few-shot and zero-shot learning approaches. The model's representations further extend to inverse problem-solving, highlighting the transformative potential of AI-enabled Scientific Computing(AI4SC) foundation models for engineering applications and physics discovery.
翻訳日:2024-02-27 15:55:19 公開日:2024-02-25
# 半教師付きオープンワールドオブジェクト検出

Semi-supervised Open-World Object Detection ( http://arxiv.org/abs/2402.16013v1 )

ライセンス: Link先を確認
Sahal Shaji Mullappilly, Abhishek Singh Gehlot, Rao Muhammad Anwer, Fahad Shahbaz Khan, Hisham Cholakkal(参考訳) 従来のオープンワールドオブジェクト検出(OWOD)問題設定は、まず既知のクラスと未知のクラスを区別し、その後、後続のタスクでラベルを導入して未知のオブジェクトを漸進的に学習する。 しかし、現在のOWODの定式化は、段階的な学習段階における知識入力に外部の人間の託宣に大きく依存している。 このようなランタイムへの依存は、現実のデプロイメントにおいてこの定式化を現実的でないものにします。 そこで本研究では,半教師付きオープンワールド検出(ss-owod)という,より現実的な定式化手法を提案する。 提案したSS-OWOD設定では,最先端OWOD検出器の性能が劇的に低下することが実証された。 そこで我々は,SS-OWOD 検出器 SS-OWFormer を導入し,拡張画像とオリジナル画像間のオブジェクトクエリ表現の整合性を向上し,ラベルのない大容量データと少ないラベル付きデータを活用する。 さらに、デコーダオブジェクトクエリの固有の機能を利用して、オブジェクト固有の情報をキャプチャする未知検出のための擬似ラベル方式を導入する。 SS-OWOD問題設定とリモートセンシングオブジェクト検出へのアプローチの有効性を実証し、慎重に計算した分割とベースライン性能評価を提案する。 我々は,MS COCO, PASCAL, Objects365, DOTAの4つのデータセットを用いた実験を行った。 ソースコード、モデル、スプリットはhttps://github.com/sahalshajim/ss-owformer.com/。

Conventional open-world object detection (OWOD) problem setting first distinguishes known and unknown classes and then later incrementally learns the unknown objects when introduced with labels in the subsequent tasks. However, the current OWOD formulation heavily relies on the external human oracle for knowledge input during the incremental learning stages. Such reliance on run-time makes this formulation less realistic in a real-world deployment. To address this, we introduce a more realistic formulation, named semi-supervised open-world detection (SS-OWOD), that reduces the annotation cost by casting the incremental learning stages of OWOD in a semi-supervised manner. We demonstrate that the performance of the state-of-the-art OWOD detector dramatically deteriorates in the proposed SS-OWOD setting. Therefore, we introduce a novel SS-OWOD detector, named SS-OWFormer, that utilizes a feature-alignment scheme to better align the object query representations between the original and augmented images to leverage the large unlabeled and few labeled data. We further introduce a pseudo-labeling scheme for unknown detection that exploits the inherent capability of decoder object queries to capture object-specific information. We demonstrate the effectiveness of our SS-OWOD problem setting and approach for remote sensing object detection, proposing carefully curated splits and baseline performance evaluations. Our experiments on 4 datasets including MS COCO, PASCAL, Objects365 and DOTA demonstrate the effectiveness of our approach. Our source code, models and splits are available here - https://github.com/sahalshajim/SS-OWFormer
翻訳日:2024-02-27 15:54:59 公開日:2024-02-25
# クラスタリング指向ガイダンスを用いた深層コントラストグラフ学習

Deep Contrastive Graph Learning with Clustering-Oriented Guidance ( http://arxiv.org/abs/2402.16012v1 )

ライセンス: Link先を確認
Mulin Chen, Bocheng Wang, Xuelong Li(参考訳) グラフ畳み込みネットワーク(GCN)は、グラフベースのクラスタリングを改善する上で大きな可能性を秘めている。 先行グラフを使わずに一般的なクラスタリングシナリオを扱うために、これらのモデルは初期グラフを事前に推定してGCNを適用する。 文学を通して私たちはそれを目撃した。 1)ほとんどのモデルは、元の機能を無視しながら、最初のグラフにフォーカスします。 したがって、学習表現の判別性は、低品質の初期グラフによって損なわれる可能性がある。 2) 学習手順には効果的なクラスタリング指導が欠如しており, 学習グラフへのクラスタリング関連情報の導入につながる可能性がある。 これらの問題に対処するために,一般データクラスタリングのために,dgl(deep contrastive graph learning)モデルを提案する。 具体的には,GCNに自動エンコーダを組み込んだ擬似システマネットワークを構築し,グラフ構造と特徴の両方を強調する。 このことから,識別能力を高めるために特徴レベルのコントラスト学習を導入し,クラスタリング指向のガイダンスとしてサンプルとセントロイドの関係を用いる。 その後、2分岐グラフ学習機構は局所的および大域的構造関係を抽出し、クラスタレベルのコントラストガイダンスの下で統一されたグラフにさらに埋め込まれる。 いくつかのベンチマークデータセットの実験結果は、最先端アルゴリズムに対するDCGLの優位性を示している。

Graph Convolutional Network (GCN) has exhibited remarkable potential in improving graph-based clustering. To handle the general clustering scenario without a prior graph, these models estimate an initial graph beforehand to apply GCN. Throughout the literature, we have witnessed that 1) most models focus on the initial graph while neglecting the original features. Therefore, the discriminability of the learned representation may be corrupted by a low-quality initial graph; 2) the training procedure lacks effective clustering guidance, which may lead to the incorporation of clustering-irrelevant information into the learned graph. To tackle these problems, the Deep Contrastive Graph Learning (DCGL) model is proposed for general data clustering. Specifically, we establish a pseudo-siamese network, which incorporates auto-encoder with GCN to emphasize both the graph structure and the original features. On this basis, feature-level contrastive learning is introduced to enhance the discriminative capacity, and the relationship between samples and centroids is employed as the clustering-oriented guidance. Afterward, a two-branch graph learning mechanism is designed to extract the local and global structural relationships, which are further embedded into a unified graph under the cluster-level contrastive guidance. Experimental results on several benchmark datasets demonstrate the superiority of DCGL against state-of-the-art algorithms.
翻訳日:2024-02-27 15:54:33 公開日:2024-02-25
# PST-Bench: 出版源の追跡とベンチマーク

PST-Bench: Tracing and Benchmarking the Source of Publications ( http://arxiv.org/abs/2402.16009v1 )

ライセンス: Link先を確認
Fanjin Zhang, Kun Cao, Yukuo Cen, Jifan Yu, Da Yin, Jie Tang(参考訳) 研究論文の出典の追跡は、研究者にとって基本的には難しい課題である。 論文間の数十億規模の引用関係は、研究者が科学の進化を効率的に理解することを妨げている。 これまでのところ、プロの研究者が研究論文の直接の情報源を特定するために構築した正確でスケーラブルなデータセットが不足している。 本稿では,紙ソーストレース(PST)の問題点を考察し,コンピュータ科学における高品質かつ継続的なデータセットPST-Benchを構築する。 PST-Benchに基づいて,様々なトピックにおける進化パターンの相違など,興味深い発見がいくつかある。 様々な方法の探求は、pst-benchの硬さを強調し、このトピックの潜在的な方向を突き止めている。 データセットとコードはhttps://github.com/thudm/paper-source-traceで入手できる。

Tracing the source of research papers is a fundamental yet challenging task for researchers. The billion-scale citation relations between papers hinder researchers from understanding the evolution of science efficiently. To date, there is still a lack of an accurate and scalable dataset constructed by professional researchers to identify the direct source of their studied papers, based on which automatic algorithms can be developed to expand the evolutionary knowledge of science. In this paper, we study the problem of paper source tracing (PST) and construct a high-quality and ever-increasing dataset PST-Bench in computer science. Based on PST-Bench, we reveal several intriguing discoveries, such as the differing evolution patterns across various topics. An exploration of various methods underscores the hardness of PST-Bench, pinpointing potential directions on this topic. The dataset and codes have been available at https://github.com/THUDM/paper-source-trace.
翻訳日:2024-02-27 15:54:13 公開日:2024-02-25
# マスキング入力勾配による非マスク認知症検出:モデルの解釈可能性と精度に対するJSMアプローチ

Unmasking Dementia Detection by Masking Input Gradients: A JSM Approach to Model Interpretability and Precision ( http://arxiv.org/abs/2402.16008v1 )

ライセンス: Link先を確認
Yasmine Mustafa and Tie Luo(参考訳) ディープラーニングと人工知能の進化は、技術的展望を大きく変えた。 しかし、医療などの重要な分野における効果的な応用は、優れた性能だけでなく、信頼性も要求している。 解釈可能性(interpretability)が重要な役割を果たす一方で、既存の説明可能なAI(XAI)アプローチは、モデルがデータ内の素早い相関やバイアスを使って(一般化不可能な)正確な予測を行うような振る舞いを明らかにしないことが多い。 同様に、現在のポストホックなxaiメソッドは、不正な偽の例を生成しやすい。 本稿では,Jacobian Saliency Map (JSM)を通じて実現された革新的なモデルデバッグ手法を用いて,XAIにアプローチする。 この問題を具体的文脈に投入するために,我々はアルツハイマー病(AD)の診断を症例として用い,ヒトの生活に重大な影響を与えることと,その進行の複雑な性質に起因した早期発見の難しさを動機とした。 われわれは,多段階にわたるAD分類の解釈可能なマルチモーダルモデルを導入し,JSMを,脳の異常を示す容積変化の洞察を提供するモダリティに依存しないツールとして取り入れた。 アブレーション研究を含む広範囲な評価は、モデルデバッギングと解釈にJSMを用いることの有効性を示し、モデル精度も著しく向上した。

The evolution of deep learning and artificial intelligence has significantly reshaped technological landscapes. However, their effective application in crucial sectors such as medicine demands more than just superior performance, but trustworthiness as well. While interpretability plays a pivotal role, existing explainable AI (XAI) approaches often do not reveal {\em Clever Hans} behavior where a model makes (ungeneralizable) correct predictions using spurious correlations or biases in data. Likewise, current post-hoc XAI methods are susceptible to generating unjustified counterfactual examples. In this paper, we approach XAI with an innovative {\em model debugging} methodology realized through Jacobian Saliency Map (JSM). To cast the problem into a concrete context, we employ Alzheimer's disease (AD) diagnosis as the use case, motivated by its significant impact on human lives and the formidable challenge in its early detection, stemming from the intricate nature of its progression. We introduce an interpretable, multimodal model for AD classification over its multi-stage progression, incorporating JSM as a modality-agnostic tool that provides insights into volumetric changes indicative of brain abnormalities. Our extensive evaluation including ablation study manifests the efficacy of using JSM for model debugging and interpretation, while significantly enhancing model accuracy as well.
翻訳日:2024-02-27 15:53:59 公開日:2024-02-25
# 雑音から明瞭性へ:テキスト埋め込みの翻訳による大規模言語モデル攻撃の逆接尾辞を解き放つ

From Noise to Clarity: Unraveling the Adversarial Suffix of Large Language Model Attacks via Translation of Text Embeddings ( http://arxiv.org/abs/2402.16006v1 )

ライセンス: Link先を確認
Hao Wang, Hao Li, Minlie Huang, Lei Sha(参考訳) 大規模言語モデル(LLM)の安全防御手法は、危険なプロンプトが少数の既知の攻撃タイプに手動でキュレートされるため、まだ限られている。 近年の研究では、有害な指示に接する接尾辞がLSMの防御をハックし、危険な出力につながることが報告されている。 This method, while effective, leaves a gap in understanding the underlying mechanics of such adversarial suffix due to the non-readability and it can be relatively easily seen through by common defense methods such as perplexity filters.To cope with this challenge, in this paper, we propose an Adversarial Suffixes Embedding Translation Framework(ASETF) that are able to translate the unreadable adversarial suffixes into coherent, readable text, which makes it easier to understand and analyze the reasons behind harmful content generation by large language models. 我々は,LLaMa2,VicunaなどのLLMの実験を行い,Advbenchデータセットの有害な指示を用いた。 その結果,提案手法は既存の手法よりもはるかに優れた攻撃成功率を達成し,プロンプトのテキストの流布率を大幅に向上させることがわかった。 さらに,本手法は,ChatGPT や Gemini などのブラックボックス LLM など,複数の LLM を効果的に攻撃できる伝達可能な逆接尾辞を生成する,より広範な手法に一般化することができる。 その結果,本手法で生成したプロンプトは,拡張された意味的多様性を示し,llm防御手法のより敵対的な例を示す可能性がある。

The safety defense methods of Large language models(LLMs) stays limited because the dangerous prompts are manually curated to just few known attack types, which fails to keep pace with emerging varieties. Recent studies found that attaching suffixes to harmful instructions can hack the defense of LLMs and lead to dangerous outputs. This method, while effective, leaves a gap in understanding the underlying mechanics of such adversarial suffix due to the non-readability and it can be relatively easily seen through by common defense methods such as perplexity filters.To cope with this challenge, in this paper, we propose an Adversarial Suffixes Embedding Translation Framework(ASETF) that are able to translate the unreadable adversarial suffixes into coherent, readable text, which makes it easier to understand and analyze the reasons behind harmful content generation by large language models. We conducted experiments on LLMs such as LLaMa2, Vicuna and using the Advbench dataset's harmful instructions. The results indicate that our method achieves a much better attack success rate to existing techniques, while significantly enhancing the textual fluency of the prompts. In addition, our approach can be generalized into a broader method for generating transferable adversarial suffixes that can successfully attack multiple LLMs, even black-box LLMs, such as ChatGPT and Gemini. As a result, the prompts generated through our method exhibit enriched semantic diversity, which potentially provides more adversarial examples for LLM defense methods.
翻訳日:2024-02-27 15:53:32 公開日:2024-02-25
# ドメイン同化による医用画像の逆ロバスト転送学習

Adversarial-Robust Transfer Learning for Medical Imaging via Domain Assimilation ( http://arxiv.org/abs/2402.16005v1 )

ライセンス: Link先を確認
Xiaohui Chen and Tie Luo(参考訳) 医療画像の分野では、患者の重要な診断機能の解明にその可能性を活用するために広範な研究がなされている。 人工知能(AI)による医療診断は、医学画像から疾患を分析し、検出し、識別するために洗練された機械学習とディープラーニングモデルに依存している。 高い精度を特徴とするこれらのモデルの顕著な性能にもかかわらず、信頼性の問題に対処した。 オリジナルのイメージに微妙な摂動を導入することで、敵は予測出力を操作でき、他のターゲットまたは非ターゲットのクラスにリダイレクトすることができる。 さらに、信頼性の高いトレーニングのためのボトルネックを構成する、一般に入手可能な医療画像の不足により、現代のアルゴリズムは、大量の自然画像に基づく事前訓練されたモデルに依存するようになった。 しかし、自然な画像と医学的な画像の間に重要な領域の差があるため、移動学習によるAIモデルが敵攻撃に対して高められた領域の脆弱性を示す。 本稿では,トランスファー学習にテクスチャとカラー適応を導入し,その後にテクスチャ保存成分を付加することで,望ましくない歪みを抑制する「emドメイン同化」手法を提案する。 異なるデータモダリティ下での様々な敵の攻撃に対して, 伝達学習の性能を体系的に解析し, 医用画像処理におけるモデルの堅牢性と安全性の強化を目標とした。 その結果, バイオメディカル応用において, より信頼性の高い伝達学習に寄与する攻撃効果の低減効果が示された。

In the field of Medical Imaging, extensive research has been dedicated to leveraging its potential in uncovering critical diagnostic features in patients. Artificial Intelligence (AI)-driven medical diagnosis relies on sophisticated machine learning and deep learning models to analyze, detect, and identify diseases from medical images. Despite the remarkable performance of these models, characterized by high accuracy, they grapple with trustworthiness issues. The introduction of a subtle perturbation to the original image empowers adversaries to manipulate the prediction output, redirecting it to other targeted or untargeted classes. Furthermore, the scarcity of publicly available medical images, constituting a bottleneck for reliable training, has led contemporary algorithms to depend on pretrained models grounded on a large set of natural images -- a practice referred to as transfer learning. However, a significant {\em domain discrepancy} exists between natural and medical images, which causes AI models resulting from transfer learning to exhibit heightened {\em vulnerability} to adversarial attacks. This paper proposes a {\em domain assimilation} approach that introduces texture and color adaptation into transfer learning, followed by a texture preservation component to suppress undesired distortion. We systematically analyze the performance of transfer learning in the face of various adversarial attacks under different data modalities, with the overarching goal of fortifying the model's robustness and security in medical imaging tasks. The results demonstrate high effectiveness in reducing attack efficacy, contributing toward more trustworthy transfer learning in biomedical applications.
翻訳日:2024-02-27 15:53:05 公開日:2024-02-25
# 量子後暗号ニューラルネットワーク

Post-Quantum Cryptography Neural Network ( http://arxiv.org/abs/2402.16002v1 )

ライセンス: Link先を確認
Abel C. H. Chen(参考訳) 近年、量子コンピュータとショア量子アルゴリズムは、現在の主流の非対称暗号法(RSAや楕円曲線暗号(ECC)など)に脅威を与えている。 したがって、量子コンピュータ攻撃に抵抗するpqc(post-quantum cryptography)法を構築する必要がある。 そこで本研究では,コードベースのPQC手法をニューラルネットワーク構造にマッピングし,非線形アクティベーション関数による暗号文の安全性,暗号文のランダム摂動,暗号文の均一分布を向上するPQCベースのニューラルネットワークを提案する。 そこで,本研究では,PQCベースのニューラルネットワークを用いて,暗号文の均一分布による暗号化と復号化を実証するために,セルラーネットワーク信号を用いる。 将来的には、提案するpqcベースのニューラルネットワークを様々なアプリケーションに適用することができる。

In recent years, quantum computers and Shor quantum algorithm have posed a threat to current mainstream asymmetric cryptography methods (e.g. RSA and Elliptic Curve Cryptography (ECC)). Therefore, it is necessary to construct a Post-Quantum Cryptography (PQC) method to resist quantum computing attacks. Therefore, this study proposes a PQC-based neural network that maps a code-based PQC method to a neural network structure and enhances the security of ciphertexts with non-linear activation functions, random perturbation of ciphertexts, and uniform distribution of ciphertexts. In practical experiments, this study uses cellular network signals as a case study to demonstrate that encryption and decryption can be performed by the proposed PQC-based neural network with the uniform distribution of ciphertexts. In the future, the proposed PQC-based neural network could be applied to various applications.
翻訳日:2024-02-27 15:52:40 公開日:2024-02-25
# 時代遅れ製品と変圧器を用いたクロスリゾリューション土地被覆分類

Cross-Resolution Land Cover Classification Using Outdated Products and Transformers ( http://arxiv.org/abs/2402.16001v1 )

ライセンス: Link先を確認
Huan Ni, Yubin Zhao, Haiyan Guan, Cheng Jiang, Yongshi Jie, Xing Wang, Yiyang Shen(参考訳) 大規模な高解像度土地被覆分類は、地球系モデルの構築と生態・資源問題への対処の前提条件である。 衛星センサー技術の進歩は、空間分解能と広い範囲の改善につながった。 しかし、高解像度ラベル付きデータの欠如は依然として課題であり、土地被覆分類法の大規模適用を妨げる。 本稿では,古いデータを用いたクロスレゾリューション土地被覆分類のためのトランスフォーマーに基づく弱教師付き手法を提案する。 まず,オブジェクトの細かな細部を欠くことなく長距離依存性を捉えるため,動的スパース注意を用いた逆差分機構(rdm)に基づくu-netライクトランスを提案する。 第2に,最適輸送(ot)に基づく反雑音損失計算(anlc)モジュールを提案する。 反ノイズ損失計算は、ot行列に基づいて自信領域(ca)と曖昧領域(va)を識別し、時代遅れの土地被覆製品における騒音の影響を緩和する。 RDMベースのU-Net-like Transformerは、重量による弱教師付き損失の導入と教師なし損失の導入により、訓練された。 提案手法の有効性を検証するために, 1m解像度のリモートセンシング画像と, 合衆国の6州の地中構造を用いた。 実験では、2013年から30m解像度の古い土地被覆製品をトレーニングラベルとして利用し、2017年から1m解像度の土地被覆地図を作成した。 その結果,提案手法は最先端手法に比べて優れていた。 コードはhttps://github.com/yu-ni1989/ANLC-Formerで入手できる。

Large-scale high-resolution land cover classification is a prerequisite for constructing Earth system models and addressing ecological and resource issues. Advancements in satellite sensor technology have led to an improvement in spatial resolution and wider coverage areas. Nevertheless, the lack of high-resolution labeled data is still a challenge, hindering the largescale application of land cover classification methods. In this paper, we propose a Transformerbased weakly supervised method for cross-resolution land cover classification using outdated data. First, to capture long-range dependencies without missing the fine-grained details of objects, we propose a U-Net-like Transformer based on a reverse difference mechanism (RDM) using dynamic sparse attention. Second, we propose an anti-noise loss calculation (ANLC) module based on optimal transport (OT). Anti-noise loss calculation identifies confident areas (CA) and vague areas (VA) based on the OT matrix, which relieves the impact of noises in outdated land cover products. By introducing a weakly supervised loss with weights and employing unsupervised loss, the RDM-based U-Net-like Transformer was trained. Remote sensing images with 1 m resolution and the corresponding ground-truths of six states in the United States were employed to validate the performance of the proposed method. The experiments utilized outdated land cover products with 30 m resolution from 2013 as training labels, and produced land cover maps with 1 m resolution from 2017. The results show the superiority of the proposed method compared to state-of-the-art methods. The code is available at https://github.com/yu-ni1989/ANLC-Former.
翻訳日:2024-02-27 15:52:27 公開日:2024-02-25
# Cieran: In-Situ Active Preference Learningによる逐次カラーマップの設計

Cieran: Designing Sequential Colormaps via In-Situ Active Preference Learning ( http://arxiv.org/abs/2402.15997v1 )

ライセンス: Link先を確認
Matt-Heun Hong, Zachary N. Sunberg, Danielle Albers Szafir(参考訳) 品質のカラーマップは重要なデータパターンを伝えるのに役立つ。 しかし、あるシナリオに対して"正しい"ように見える美的なカラーマップを見つけるには、かなりの設計と技術的な専門知識が必要です。 これは、データアナリストがJupyter Notebooks内のチャートを設計しながら、質の高いカラーマップを素早く見つけることができるツールです。 本システムでは,専門家が設計したカラーマップをランク付けし,ペアワイズ比較から新たな色マップを作成するために,アクティブな選好学習パラダイムを採用している。 カラーマップ設計をCIELABカラースペースの経路計画問題としてコンテキスト固有報酬モデルを用いて扱うことにより,この問題を実現する。 12人の科学者による評価の結果、Cieran氏はカラーマップのランク付けにユーザの好みを効果的にモデル化し、このモデルを利用して新しい品質設計を作成した。 本研究は,効率的な可視化設計最適化を支援するために,能動的選好学習の可能性を示す。

Quality colormaps can help communicate important data patterns. However, finding an aesthetically pleasing colormap that looks "just right" for a given scenario requires significant design and technical expertise. We introduce Cieran, a tool that allows any data analyst to rapidly find quality colormaps while designing charts within Jupyter Notebooks. Our system employs an active preference learning paradigm to rank expert-designed colormaps and create new ones from pairwise comparisons, allowing analysts who are novices in color design to tailor colormaps to their data context. We accomplish this by treating colormap design as a path planning problem through the CIELAB colorspace with a context-specific reward model. In an evaluation with twelve scientists, we found that Cieran effectively modeled user preferences to rank colormaps and leveraged this model to create new quality designs. Our work shows the potential of active preference learning for supporting efficient visualization design optimization.
翻訳日:2024-02-27 15:52:02 公開日:2024-02-25
# ハーフスペースの学習区間における硬度改善

Improved Hardness Results for Learning Intersections of Halfspaces ( http://arxiv.org/abs/2402.15995v1 )

ライセンス: Link先を確認
Stefan Tiegel(参考訳) 不適切な設定で半空間の交点を弱く学習するための強い(そして驚くほど単純な)下界を示す。 この問題についてはほとんど分かっていない。 例えば、2つの半空間の交叉を学ぶ多項式時間アルゴリズムが存在するかどうかさえ分かっていない。 一方、確立された仮定に基づく下界(最悪の格子問題やフェイジの3SAT仮説の変項の近似など)は、超対数的に多くのハーフ空間 [KS09,KS06,DSS16] の交叉についてのみ知られている(あるいは既存の結果によって示唆される)。 より少ない半空間の交叉は、[dv21] よりも小さい標準仮定でのみ除外される(例えば、大きなストレッチを持つ局所擬ランダム生成器の存在など)。 このギャップをかなり狭め、次元で$\omega(\log \log n)$のハーフスペースを学習しても、最悪の場合の格子問題の標準的な仮定の下で超多項時間を取る(つまり、svp と sivp は多項式因子内で近似することが難しい)。 さらに,統計クエリフレームワークにおいて,無条件のハードネス結果を与える。 具体的には、任意の$k$(定数であっても)に対して、k$ハーフスペースを次元$n$で学習するには、精度$n^{-\omega(k)}$、あるいは指数的に多くのクエリが必要であり、特に$\omega(1)$ハーフスペースの多項式精度を持つsqアルゴリズムを除外する必要がある。 私たちの知る限りでは、これは半空間の超定数数を学ぶための最初の無条件のハードネスの結果です。 我々の下界は、近年の高次元統計学における多くの下界構造の中心にある、ハーフスペースの交点といわゆる平行パンケーキ分布(DKS17,BLPR19,BRST21]の間の新しい接続を通じて統一的に得られる。

We show strong (and surprisingly simple) lower bounds for weakly learning intersections of halfspaces in the improper setting. Strikingly little is known about this problem. For instance, it is not even known if there is a polynomial-time algorithm for learning the intersection of only two halfspaces. On the other hand, lower bounds based on well-established assumptions (such as approximating worst-case lattice problems or variants of Feige's 3SAT hypothesis) are only known (or are implied by existing results) for the intersection of super-logarithmically many halfspaces [KS09,KS06,DSS16]. With intersections of fewer halfspaces being only ruled out under less standard assumptions [DV21] (such as the existence of local pseudo-random generators with large stretch). We significantly narrow this gap by showing that even learning $\omega(\log \log N)$ halfspaces in dimension $N$ takes super-polynomial time under standard assumptions on worst-case lattice problems (namely that SVP and SIVP are hard to approximate within polynomial factors). Further, we give unconditional hardness results in the statistical query framework. Specifically, we show that for any $k$ (even constant), learning $k$ halfspaces in dimension $N$ requires accuracy $N^{-\Omega(k)}$, or exponentially many queries -- in particular ruling out SQ algorithms with polynomial accuracy for $\omega(1)$ halfspaces. To the best of our knowledge this is the first unconditional hardness result for learning a super-constant number of halfspaces. Our lower bounds are obtained in a unified way via a novel connection we make between intersections of halfspaces and the so-called parallel pancakes distribution [DKS17,BLPR19,BRST21] that has been at the heart of many lower bound constructions in (robust) high-dimensional statistics in the past few years.
翻訳日:2024-02-27 15:51:45 公開日:2024-02-25
# 予測分析のためのディープラーニングを用いたデジタル資産のポートフォリオ管理とリスクアセスメントの最適化

Optimizing Portfolio Management and Risk Assessment in Digital Assets Using Deep Learning for Predictive Analysis ( http://arxiv.org/abs/2402.15994v1 )

ライセンス: Link先を確認
Qishuo Cheng, Le Yang, Jiajian Zheng, Miao Tian, Duan Xin(参考訳) 近年、ポートフォリオ管理の問題は人工知能の分野で広範囲に研究されているが、既存のディープラーニングベースの定量的取引手法には改善の余地がある。 まず、株式の予測モードは特異であり、しばしば1人のトレーディング専門家だけがモデルによって訓練され、トレーディング決定はモデルの予測結果のみに基づいて行われる。 第二に、このモデルが使用するデータソースは比較的単純であり、株式自体のデータのみを考慮し、市場全体のリスクが株式に与える影響を無視する。 本稿では,DQNアルゴリズムを新規かつ簡単な方法で資産管理ポートフォリオに導入し,ポートフォリオ管理におけるDRLアルゴリズムの有効性を十分に証明するベンチマークを大幅に上回る性能を示す。 これはまた、金融問題の複雑さを考えるきっかけとなり、アルゴリズムの使用は適応すべき問題と完全に組み合わせるべきである。 最後に、この戦略は、資産とアクションを最大Q値で選択することで実現される。 異なる資産は別々に環境として訓練されるため、異なる資産間でQ値が漂う現象(異なる資産は異なるQ値分布領域を持つ)があり、誤った資産選択につながる可能性がある。 異なる資産のQ値がQ値の分布を共有して結果を改善するために制約を加えることを考える。

Portfolio management issues have been extensively studied in the field of artificial intelligence in recent years, but existing deep learning-based quantitative trading methods have some areas where they could be improved. First of all, the prediction mode of stocks is singular; often, only one trading expert is trained by a model, and the trading decision is solely based on the prediction results of the model. Secondly, the data source used by the model is relatively simple, and only considers the data of the stock itself, ignoring the impact of the whole market risk on the stock. In this paper, the DQN algorithm is introduced into asset management portfolios in a novel and straightforward way, and the performance greatly exceeds the benchmark, which fully proves the effectiveness of the DRL algorithm in portfolio management. This also inspires us to consider the complexity of financial problems, and the use of algorithms should be fully combined with the problems to adapt. Finally, in this paper, the strategy is implemented by selecting the assets and actions with the largest Q value. Since different assets are trained separately as environments, there may be a phenomenon of Q value drift among different assets (different assets have different Q value distribution areas), which may easily lead to incorrect asset selection. Consider adding constraints so that the Q values of different assets share a Q value distribution to improve results.
翻訳日:2024-02-27 15:50:48 公開日:2024-02-25
# balanced truncationを用いた対角状態空間層を有するs4の学習法

Learning method for S4 with Diagonal State Space Layers using Balanced Truncation ( http://arxiv.org/abs/2402.15993v1 )

ライセンス: Link先を確認
Haruka Ezoe and Kazuhiro Sato(参考訳) 本研究では,センサデータ解析やリアルタイム解析など,エッジインテリジェンスアプリケーションにおける長期データ処理に適した,対角状態空間(DSS)層を組み込んだ構造化状態空間シーケンス(S4)モデルの新たな学習手法を提案する。 本手法は,DSS層に適用された制御理論で広く用いられている平衡トランケーション法を用いて,推論時の計算コストを削減する。 縮小モデルからパラメータを利用することにより、S4モデルの初期化プロセスが洗練され、広く使われているSkiw-HiPPo初期化よりも性能が向上する。 数値実験により,dss層を有するs4モデルが従来のモデルよりも精度と効率の指標において優れていた。 さらに,本手法を用いて訓練したモデルでは,原モデルの精度が常に向上し,本手法が原モデルの強度を効果的に活用できることが示唆された。

We introduce a novel learning method for Structured State Space Sequence (S4) models incorporating Diagonal State Space (DSS) layers, tailored for processing long-sequence data in edge intelligence applications, including sensor data analysis and real-time analytics. This method utilizes the balanced truncation technique, prevalent in control theory, applied specifically to DSS layers to reduce computational costs during inference. By leveraging parameters from the reduced model, we refine the initialization process of S4 models, outperforming the widely used Skew-HiPPo initialization in terms of performance. Numerical experiments demonstrate that our trained S4 models with DSS layers surpass conventionally trained models in accuracy and efficiency metrics. Furthermore, our observations reveal a positive correlation: higher accuracy in the original model consistently leads to increased accuracy in models trained using our method, suggesting that our approach effectively leverages the strengths of the original model.
翻訳日:2024-02-27 15:50:06 公開日:2024-02-25
# 最大平均不一致に対するマルチ人口認識最適化による機械生成テキストの検出

Detecting Machine-Generated Texts by Multi-Population Aware Optimization for Maximum Mean Discrepancy ( http://arxiv.org/abs/2402.16041v1 )

ライセンス: Link先を確認
Shuhai Zhang, Feng Liu, Jiahao Yang, Yifan Yang, Changsheng Li, Bo Han, Mingkui Tan(参考訳) ChatGPTのような大規模言語モデル(LLM)は、人間のようなテキストを生成する際に顕著な性能を示した。 しかし、機械生成テキスト(MGT)は、盗作問題、誤解を招く情報、幻覚問題などの重大なリスクを負う可能性がある。 したがって、多くの状況においてMGTを検出することが非常に緊急かつ重要である。 残念ながら、MGTと人文テキストを区別することは困難である。なぜなら、両者の分布の相違は、LLMの顕著な性能のため、しばしば非常に微妙であるからである。 本稿では, MMD が分布的不一致を適切に識別できるという意味で, この問題に対処するために, textit{maximum mean discrepancy} (MMD) を利用する。 しかし、MGTs は様々な LLM により \textit{multiple text population} を含む可能性があるため、MDD のばらつきが著しく増大する。 これにより、mmdの2つのサンプル間の差を測定する能力が著しく損なわれる。 そこで本研究では,MDD-MPと呼ばれるMDDの新規な<textit{multi-population}対応最適化手法を提案する。 MMD-MPを用いて段落ベースと文ベース検出の2つの手法を開発した。 各種LLM, \eg, GPT2, ChatGPTの大規模実験により, MMD-MPの優れた検出性能を示した。 ソースコードは \url{https://github.com/ZSHSH98/MMD-MP} で入手できる。

Large language models (LLMs) such as ChatGPT have exhibited remarkable performance in generating human-like texts. However, machine-generated texts (MGTs) may carry critical risks, such as plagiarism issues, misleading information, or hallucination issues. Therefore, it is very urgent and important to detect MGTs in many situations. Unfortunately, it is challenging to distinguish MGTs and human-written texts because the distributional discrepancy between them is often very subtle due to the remarkable performance of LLMs. In this paper, we seek to exploit \textit{maximum mean discrepancy} (MMD) to address this issue in the sense that MMD can well identify distributional discrepancies. However, directly training a detector with MMD using diverse MGTs will incur a significantly increased variance of MMD since MGTs may contain \textit{multiple text populations} due to various LLMs. This will severely impair MMD's ability to measure the difference between two samples. To tackle this, we propose a novel \textit{multi-population} aware optimization method for MMD called MMD-MP, which can \textit{avoid variance increases} and thus improve the stability to measure the distributional discrepancy. Relying on MMD-MP, we develop two methods for paragraph-based and sentence-based detection, respectively. Extensive experiments on various LLMs, \eg, GPT2 and ChatGPT, show superior detection performance of our MMD-MP. The source code is available at \url{https://github.com/ZSHsh98/MMD-MP}.
翻訳日:2024-02-27 15:45:08 公開日:2024-02-25
# ehrnoteqa: 臨床場面における大規模言語モデル評価のための患者固有の質問応答ベンチマーク

EHRNoteQA: A Patient-Specific Question Answering Benchmark for Evaluating Large Language Models in Clinical Settings ( http://arxiv.org/abs/2402.16040v1 )

ライセンス: Link先を確認
Sunjun Kweon, Jiyoun Kim, Heeyoung Kwak, Dongchul Cha, Hangyul Yoon, Kwanghyun Kim, Seunghyun Won, Edward Choi(参考訳) 本研究では,臨床環境におけるLarge Language Models(LLMs)の評価に適した,患者固有の質問応答ベンチマークであるEHRNoteQAを紹介する。 MIMIC-IV Electronic Health Record (EHR)に基づいて、3人の医療専門家からなるチームが、特定の患者のEHR臨床試験ノートにリンクした962のユニークな質問からなるデータセットを治療した。 EHRNoteQA を既存の EHR ベースのベンチマークと異なるものにしているのは,次のとおりである。 まず第一に,自動評価のコンテキストにおいて信頼性の高いスコアで LLM を効果的に評価する,多選択の質問応答フォーマットを採用した最初のデータセットである。 第二に、1つの質問に答えるためには、複数の臨床ノートの分析が必要であり、臨床医が患者の履歴に関する広範な記録をレビューする実際の臨床意思決定の複雑な性質を反映している。 各種大規模言語モデルに対する総合的な評価の結果, EHRNoteQAのスコアは, 臨床医が評価した実際の医学的問題に, 他のLSMベンチマークのスコアよりも密接に関連していることがわかった。 このことは、医療応用におけるLSMの評価における EHRNoteQA の重要性を強調し、LSM の医療システムへの統合を促進する上で重要な役割を強調している。 このデータセットはphysionet credential accessの下で一般公開され、この分野のさらなる研究が促進される。

This study introduces EHRNoteQA, a novel patient-specific question answering benchmark tailored for evaluating Large Language Models (LLMs) in clinical environments. Based on MIMIC-IV Electronic Health Record (EHR), a team of three medical professionals has curated the dataset comprising 962 unique questions, each linked to a specific patient's EHR clinical notes. What makes EHRNoteQA distinct from existing EHR-based benchmarks is as follows: Firstly, it is the first dataset to adopt a multi-choice question answering format, a design choice that effectively evaluates LLMs with reliable scores in the context of automatic evaluation, compared to other formats. Secondly, it requires an analysis of multiple clinical notes to answer a single question, reflecting the complex nature of real-world clinical decision-making where clinicians review extensive records of patient histories. Our comprehensive evaluation on various large language models showed that their scores on EHRNoteQA correlate more closely with their performance in addressing real-world medical questions evaluated by clinicians than their scores from other LLM benchmarks. This underscores the significance of EHRNoteQA in evaluating LLMs for medical applications and highlights its crucial role in facilitating the integration of LLMs into healthcare systems. The dataset will be made available to the public under PhysioNet credential access, promoting further research in this vital field.
翻訳日:2024-02-27 15:44:42 公開日:2024-02-25
# AI会話エージェントの一般認識を理解する: クロスカルチャー分析

Understanding Public Perceptions of AI Conversational Agents: A Cross-Cultural Analysis ( http://arxiv.org/abs/2402.16039v1 )

ライセンス: Link先を確認
Zihan Liu, Han Li, Anfan Chen, Renwen Zhang, Yi-Chieh Lee(参考訳) 会話エージェント(CA)は日々の生活に統合され、ソーシャルメディアで重要な議論が巻き起こった。 これまでの研究では、AIに関する一般の認識を調査してきたが、CAに焦点を絞った研究には顕著な欠如がある。 このギャップに対処するために,本稿では,CAに関する約100万のソーシャルメディア議論を分析し,米国と中国におけるCAの言説と認識を比較した。 中国人の参加者は、CAをヘドニズム的、声質的、身体的に具現化されたCAを暖かく有能なものと見なし、概して肯定的な感情を表わす傾向にあった。 対照的に、アメリカの参加者はCAをより機能的に見ており、曖昧な態度であった。 温暖感は両国のCAに対する肯定的な感情の鍵となった。 ユーザの好みやニーズに合わせてコンテキストに敏感でユーザ中心のCAを設計する上での実践的意義について議論した。

Conversational Agents (CAs) have increasingly been integrated into everyday life, sparking significant discussions on social media. While previous research has examined public perceptions of AI in general, there is a notable lack in research focused on CAs, with fewer investigations into cultural variations in CA perceptions. To address this gap, this study used computational methods to analyze about one million social media discussions surrounding CAs and compared people's discourses and perceptions of CAs in the US and China. We find Chinese participants tended to view CAs hedonically, perceived voice-based and physically embodied CAs as warmer and more competent, and generally expressed positive emotions. In contrast, US participants saw CAs more functionally, with an ambivalent attitude. Warm perception was a key driver of positive emotions toward CAs in both countries. We discussed practical implications for designing contextually sensitive and user-centric CAs to resonate with various users' preferences and needs.
翻訳日:2024-02-27 15:44:16 公開日:2024-02-25
# 肝細胞癌研究における質問応答システム改善のための深層学習アプローチ

Deep Learning Approaches for Improving Question Answering Systems in Hepatocellular Carcinoma Research ( http://arxiv.org/abs/2402.16038v1 )

ライセンス: Link先を確認
Shuning Huo, Yafei Xiang, Hanyi Yu, Mengran Zhu, Yulu Gong(参考訳) 近年、自然言語処理(NLP)の進歩はディープラーニング技術、特にGPUやTPUといった強力なコンピューティングリソースの利用によって加速されている。 膨大な量のデータに基づいてトレーニングされたBERTやGPT-3といったモデルは、言語理解と生成に革命をもたらした。 これらの事前学習されたモデルは、意味理解、インテリジェントな書き方、推論といった様々なタスクのロバストなベースとなり、より汎用的な人工知能への道を開く。 NLPはAIの重要な応用として、自然言語の相互作用を通じて人間とコンピュータのギャップを埋めることを目指している。 本稿では,大規模モデルベースNLPの現状と今後の展望を考察し,本領域における質問応答システムに着目した。 人工知能による質問応答システムの実践事例と展開を解析し、大規模NLPの領域におけるさらなる探索と研究を促進する。

In recent years, advancements in natural language processing (NLP) have been fueled by deep learning techniques, particularly through the utilization of powerful computing resources like GPUs and TPUs. Models such as BERT and GPT-3, trained on vast amounts of data, have revolutionized language understanding and generation. These pre-trained models serve as robust bases for various tasks including semantic understanding, intelligent writing, and reasoning, paving the way for a more generalized form of artificial intelligence. NLP, as a vital application of AI, aims to bridge the gap between humans and computers through natural language interaction. This paper delves into the current landscape and future prospects of large-scale model-based NLP, focusing on the question-answering systems within this domain. Practical cases and developments in artificial intelligence-driven question-answering systems are analyzed to foster further exploration and research in the realm of large-scale NLP.
翻訳日:2024-02-27 15:43:58 公開日:2024-02-25
# 熱力学的可逆量子測定と関連する作業コスト

Thermodynamically reversible quantum measurements and related work costs ( http://arxiv.org/abs/2402.16037v1 )

ライセンス: Link先を確認
Camille L Latune and Cyril Elouard(参考訳) 熱浴に結合した測定装置を含む量子測定の一般的な微視的モデルを考慮して、システムと装置の結合をオン・オフするプロセス、統計混合物への遷移、古典的読み出し、および装置の再設定を含む、量子測定の実現に必要なエネルギー資源を分析する。 一般的な熱力学の議論を通して、必要最小限の作業は、測定されるシステムのエネルギー変動と、測定のパフォーマンスを特徴づける情報理論量に依存することを示した。 さらに, 明示的なプロトコルを提供することにより, 熱力学的に可逆的な測定が可能となり, 最小の作業コストに到達できることを示す。 最後に,有限時間計測プロトコルについて,有限時間熱力学プロセスに固有のエントロピー生成の増加による作業コストの増加を示す。 これは、測定の効率と作業コストのトレードオフに加えて、測定の速度と作業コストの間の新たなトレードオフを浮き彫りにしている。

Considering a general microscopic model for quantum measurement comprising a measurement apparatus coupled to a thermal bath, we analyze the energetic resources necessary for the realisation of quantum measurements, including the process of switching on and off the coupling between the system and the apparatus, the transition to a statistical mixture, the classical readout, and the apparatus resetting. We show via general thermodynamic arguments that the minimal required work depends on the energy variation of the system being measured plus information-theoretic quantities characterizing the performance of the measurement -- efficiency and completeness. Additionally, providing an explicit protocol, we show that it is possible to perform thermodynamically reversible measurement, thus reaching the minimal work expenditure. Finally, for finite-time measurement protocols, we illustrate the increasing work cost induced by rising entropy production inherent of finite-time thermodynamic processes. This highlights an emerging trade-off between velocity of the measurement and work cost, on top of a trade-off between efficiency of the measurement and work cost.
翻訳日:2024-02-27 15:43:42 公開日:2024-02-25
# 機械学習に基づく自動車意図軌道認識と自律運転予測

Machine Learning-Based Vehicle Intention Trajectory Recognition and Prediction for Autonomous Driving ( http://arxiv.org/abs/2402.16036v1 )

ライセンス: Link先を確認
Hanyi Yu, Shuning Huo, Mengran Zhu, Yulu Gong, Yafei Xiang(参考訳) 近年、インターネット技術の拡大と自動化の進歩は、自動運転技術に大きな注目を集めている。 ボルボ、メルセデス・ベンツ、テスラなどの主要自動車メーカーは、補助走行車から半自動走行車まで、徐々に製品を導入してきた。 しかし、この期間には自動運転車に関する交通安全問題もいくつか見られる。 例えば2016年3月、googleの自動運転車がバスと小さな衝突に巻き込まれた。 事故当時、自動運転車は右車線に合流しようとしたが、車線変更中にリアルタイムの環境情報に動的に対応できなかった。 接近するバスはそれを避けるために減速し、バスとの低速衝突につながると誤って仮定した。 この出来事は、自動運転技術の急速な進歩にもかかわらず、現在の技術的欠点と自律車線変更行動に関連する安全上の懸念を強調している。 車線変更は高速道路の運転において最も一般的で危険な行動の1つであり、交通の安全と流れに大きな影響を及ぼす。 したがって、車線変更は交通安全に不可欠であり、運転者の車線変更意図を正確に予測することは運転安全性を著しく向上させることができる。 本稿では、安全な車線変更を容易にし、道路の安全性を向上させることを目的とした、自動運転車線変更行動のディープラーニングに基づく予測手法を提案する。

In recent years, the expansion of internet technology and advancements in automation have brought significant attention to autonomous driving technology. Major automobile manufacturers, including Volvo, Mercedes-Benz, and Tesla, have progressively introduced products ranging from assisted-driving vehicles to semi-autonomous vehicles. However, this period has also witnessed several traffic safety incidents involving self-driving vehicles. For instance, in March 2016, a Google self-driving car was involved in a minor collision with a bus. At the time of the accident, the autonomous vehicle was attempting to merge into the right lane but failed to dynamically respond to the real-time environmental information during the lane change. It incorrectly assumed that the approaching bus would slow down to avoid it, leading to a low-speed collision with the bus. This incident highlights the current technological shortcomings and safety concerns associated with autonomous lane-changing behavior, despite the rapid advancements in autonomous driving technology. Lane-changing is among the most common and hazardous behaviors in highway driving, significantly impacting traffic safety and flow. Therefore, lane-changing is crucial for traffic safety, and accurately predicting drivers' lane change intentions can markedly enhance driving safety. This paper introduces a deep learning-based prediction method for autonomous driving lane change behavior, aiming to facilitate safe lane changes and thereby improve road safety.
翻訳日:2024-02-27 15:43:25 公開日:2024-02-25
# インテリジェントEコマースレコメンデーションのためのトランスフォーマーモデルを用いたテキスト理解と生成

Text Understanding and Generation Using Transformer Models for Intelligent E-commerce Recommendations ( http://arxiv.org/abs/2402.16035v1 )

ライセンス: Link先を確認
Yafei Xiang, Hanyi Yu, Yulu Gong, Shuning Huo, Mengran Zhu(参考訳) 人工知能技術の急速な発展に伴い、トランスフォーマー構造事前学習モデルは、大規模言語モデル(LLM)タスクにとって重要なツールとなっている。 電子商取引の分野では、テキスト理解からレコメンデーションシステムの生成に至るまで、これらのモデルが特に広く使われている。 本稿では,eコマーステキスト理解およびレコメンデーション生成におけるTransformer事前学習モデルのコアアプリケーションシナリオについて,製品記述の自動生成,ユーザコメントの感情分析,パーソナライズされたレコメンデーションシステムの構築,顧客サービス会話の自動処理などについて概説する。 本稿では, 複雑なユーザの意図を理解し, 推薦の質を向上させる上で, 事前学習したモデルの独特な利点を強調し, モデル動作原理, 実装プロセス, 応用効果の詳細な分析を行った。 さらに,モデルの一般化能力の向上,大規模データセットの処理能力,ユーザのプライバシ保護のための技術的戦略など,今後の課題や改善の方向性についても論じる。 最終的に、eコマースにおけるトランスフォーマー構造事前学習モデルの適用は、技術革新を駆動するだけでなく、商業者や消費者に大きな利益をもたらし、今後、これらのモデルはeコマースなどにおいて重要な役割を担い続けるだろう、と論文は指摘している。

With the rapid development of artificial intelligence technology, Transformer structural pre-training model has become an important tool for large language model (LLM) tasks. In the field of e-commerce, these models are especially widely used, from text understanding to generating recommendation systems, which provide powerful technical support for improving user experience and optimizing service processes. This paper reviews the core application scenarios of Transformer pre-training model in e-commerce text understanding and recommendation generation, including but not limited to automatic generation of product descriptions, sentiment analysis of user comments, construction of personalized recommendation system and automated processing of customer service conversations. Through a detailed analysis of the model's working principle, implementation process, and application effects in specific cases, this paper emphasizes the unique advantages of pre-trained models in understanding complex user intentions and improving the quality of recommendations. In addition, the challenges and improvement directions for the future are also discussed, such as how to further improve the generalization ability of the model, the ability to handle large-scale data sets, and technical strategies to protect user privacy. Ultimately, the paper points out that the application of Transformer structural pre-training models in e-commerce has not only driven technological innovation, but also brought substantial benefits to merchants and consumers, and looking forward, these models will continue to play a key role in e-commerce and beyond.
翻訳日:2024-02-27 15:43:04 公開日:2024-02-25
# 深層学習手法を用いた短文の感情分類

Emotion Classification in Short English Texts using Deep Learning Techniques ( http://arxiv.org/abs/2402.16034v1 )

ライセンス: Link先を確認
Siddhanth Bhat(参考訳) リソース不足の言語から限られたテキストデータセット内の感情を検出することは、特別なフレームワークと計算戦略を要求する、恐ろしい障害となる。 本研究は,英語短文の感情を識別する深層学習手法の徹底的な検討を行う。 ディープラーニングアプローチでは、より優れた精度を達成するために、転送学習と単語埋め込み(特にBERT)を採用している。 これらの方法を評価するために,5つの主感情カテゴリを付記した,6372種類の短いペルシア語テキストからなる「small englishemotions」データセットを紹介する。 実験の結果, 転送学習とBERTベースのテキスト埋め込みは, データセット中のテキストを正確に分類するための代替手法よりも優れていることがわかった。

Detecting emotions in limited text datasets from under-resourced languages presents a formidable obstacle, demanding specialized frameworks and computational strategies. This study conducts a thorough examination of deep learning techniques for discerning emotions in short English texts. Deep learning approaches employ transfer learning and word embedding, notably BERT, to attain superior accuracy. To evaluate these methods, we introduce the "SmallEnglishEmotions" dataset, comprising 6372 varied short Persian texts annotated with five primary emotion categories. Our experiments reveal that transfer learning and BERT-based text embedding outperform alternative methods in accurately categorizing the text in the dataset.
翻訳日:2024-02-27 15:42:38 公開日:2024-02-25
# 地域への潜入:地域情報トランスフォーマによる単一画像レーダ化

Diving Deep into Regions: Exploiting Regional Information Transformer for Single Image Deraining ( http://arxiv.org/abs/2402.16033v1 )

ライセンス: Link先を確認
Baiang Li, Zhao Zhang, Huan Zheng, Xiaogang Xu, Yanyan Wei, Jingyi Zhang, Jicong Fan and Meng Wang(参考訳) トランスフォーマーをベースとしたSID(Single Image Deraining)手法は、長距離インタラクションをキャプチャする堅牢な能力によって、大きな成功を収めている。 しかし,現在の手法では,雨害・無影響地域を同時に扱うことができ,これらの地域間の格差を見越して,雨害と背景部分の混同が生じ,効果的な相互作用が得られず,結果として,最適下地食の結果がもたらされることに気付いた。 そこで,本研究では,高画質画像再構成のインパクトを考慮しつつ,雨害領域と無害領域を独立的に処理することの重要性を強調する新しいsid手法である地域トランスフォーマー(regformer)を提案する。 提案手法の要点は、RMA機構とMGFB(Mixed Gate Forward Block)を統合した、革新的なRegional Transformer Block(RTB)である。 我々のRTBは、雨の影響を受けていない地域の注意選択と混合スケールの局所的モデリングに利用されている。 RMAはこれらの2つの地域とその相互作用に合わせてアテンションマップを生成し,雨の除去に不可欠な包括的特徴を抽出する。 高周波テクスチャを回復し,より局所的な詳細を捉えるため,MGFBを補償モジュールとして開発し,局所混合スケールモデルを完成させる。 広範な実験により,我々のモデルが最先端の性能に到達できることが証明された。 私たちのコードとトレーニングされたモデルは公開されています。

Transformer-based Single Image Deraining (SID) methods have achieved remarkable success, primarily attributed to their robust capability in capturing long-range interactions. However, we've noticed that current methods handle rain-affected and unaffected regions concurrently, overlooking the disparities between these areas, resulting in confusion between rain streaks and background parts, and inabilities to obtain effective interactions, ultimately resulting in suboptimal deraining outcomes. To address the above issue, we introduce the Region Transformer (Regformer), a novel SID method that underlines the importance of independently processing rain-affected and unaffected regions while considering their combined impact for high-quality image reconstruction. The crux of our method is the innovative Region Transformer Block (RTB), which integrates a Region Masked Attention (RMA) mechanism and a Mixed Gate Forward Block (MGFB). Our RTB is used for attention selection of rain-affected and unaffected regions and local modeling of mixed scales. The RMA generates attention maps tailored to these two regions and their interactions, enabling our model to capture comprehensive features essential for rain removal. To better recover high-frequency textures and capture more local details, we develop the MGFB as a compensation module to complete local mixed scale modeling. Extensive experiments demonstrate that our model reaches state-of-the-art performance, significantly improving the image deraining quality. Our code and trained models are publicly available.
翻訳日:2024-02-27 15:42:25 公開日:2024-02-25
# 部分選択フィルタによる単一光子量子レーダー検出の最適化

Optimizing single-photon quantum radar detection through partially postselected filtering ( http://arxiv.org/abs/2402.16031v1 )

ライセンス: Link先を確認
Liangsheng Li, Maoxin Liu, Wen-Long You, Chengjie Zhang, Shengli Zhang, Hongcheng Yin, Zhihe Xiao, and Yong Zhu(参考訳) 本研究では,絡み合った光子状態の結合測定を活用し,吸収材料の透過率や反射係数を高めることを目的とした手法を検討する。 一方,光子触媒を反射チャネルに実装することにより,伝送チャネルの状態が効果的に変化し,伝送比が顕著に向上する。 同様に、この手法は吸収材料の反射率を著しく増幅する可能性があり、これは協調目標の検出に有用である。 一方,ゼロ光子に対するヘラルド法に基づく統計的計数法を用いて,ガウス白色雑音に影響を受ける量子レーダー構成のモンテカルロシミュレーションによって検証される非協力的ターゲット検出のための反射強調プロトコルの影響を評価する。 その結果,平均2乗誤差の増加とともに,画像の信号-雑音比が著しく向上した。 これらの知見は、量子レーダの実装における我々のアプローチの実用的応用の可能性を強調している。

In this study, we explore an approach aimed at enhancing the transmission or reflection coefficients of absorbing materials through the utilization of joint measurements of entangled photon states. On one hand, through the implementation of photon catalysis on the reflected channel, we can effectively modify the state of the transmission channel, leading to a notable improvement in the transmission ratio. Similarly, this approach holds potential for significantly amplifying the reflection ratio of absorbing materials, which is useful for detecting cooperative targets. On the other hand, employing statistical counting methods based on the technique of heralding on zero photons, we evaluate the influence of our reflection enhancement protocol for detecting noncooperative targets, which is validated through Monte Carlo simulations of a quantum-radar setup affected by Gaussian white noise. Our results demonstrate a remarkable enhancement in the signal-to-noise ratio of imaging, albeit with an increase in mean squared error. These findings highlight the potential practical applications of our approach in the implementation of quantum radar.
翻訳日:2024-02-27 15:41:56 公開日:2024-02-25
# Reward Valuesを忘れてはいけない:Value-based Calibrationによる言語モデルアライメント

Don't Forget Your Reward Values: Language Model Alignment via Value-based Calibration ( http://arxiv.org/abs/2402.16030v1 )

ライセンス: Link先を確認
Xin Mao, Feng-Lin Li, Huimin Xu, Wei Zhang, Anh Tuan Luu(参考訳) Reinforcement Learning from Human Feedback (RLHF) は、Large Language Models (LLMs) の生成品質を大幅に向上させる一方、最近の研究は、PPOアルゴリズムに関連する複雑さと不安定性を懸念し、一連の順序に基づくキャリブレーション手法を実行可能な代替手段として提案している。 本稿では,現在の順序に基づく手法について,報酬値の活用の非効率性や誤用問題への対処について検討する。 これらの知見に基づいて, LLM と人間の嗜好の整合性を改善するための新しい \textbf{V}alue-based \textbf{C}ali\textbf{B}ration (VCB) 法を提案する。 実験結果によると、VCBはAIアシスタントや要約データセット上の既存のアライメント手法を超越し、多様な設定における優れた一般化可能性、堅牢性、安定性を提供する。

While Reinforcement Learning from Human Feedback (RLHF) significantly enhances the generation quality of Large Language Models (LLMs), recent studies have raised concerns regarding the complexity and instability associated with the Proximal Policy Optimization (PPO) algorithm, proposing a series of order-based calibration methods as viable alternatives. This paper delves further into current order-based methods, examining their inefficiencies in utilizing reward values and addressing misalignment issues. Building upon these findings, we propose a novel \textbf{V}alue-based \textbf{C}ali\textbf{B}ration (VCB) method to better align LLMs with human preferences. Experimental results demonstrate that VCB surpasses existing alignment methods on AI assistant and summarization datasets, providing impressive generalizability, robustness, and stability in diverse settings.
翻訳日:2024-02-27 15:41:40 公開日:2024-02-25
# GraphWiz: グラフ問題に対する命令追従型言語モデル

GraphWiz: An Instruction-Following Language Model for Graph Problems ( http://arxiv.org/abs/2402.16029v1 )

ライセンス: Link先を確認
Nuo Chen, Yuhan Li, Jianheng Tang, Jia Li(参考訳) 大規模言語モデル(llm)は、いくつかの分野で素晴らしい成功を収めてきたが、複雑なグラフ問題を理解し解決する能力は、あまり研究されていない。 このギャップを埋めるために、言語モデルに明確な推論経路を用いて幅広いグラフ問題に取り組む能力を持たせるために設計された、新しく包括的な命令チューニングデータセットであるGraphInstructを導入する。 GraphInstructを利用することで、明確な推論プロセスを生成しながら、さまざまなグラフ問題タイプを解決可能な、オープンソースの言語モデルであるGraphWizを構築します。 モデルの能力と信頼性を高めるため、dpo(direct preference optimization)フレームワークをグラフ問題解決コンテキストに組み込んだ。 拡張モデルであるGraphWiz-DPOは、9つのタスクで平均65%の精度を達成し、GPT-4を平均43.8%上回っている。 さらに,本研究では,トレーニングデータ量とモデル性能の微妙なバランスに着目し,データ量の増加に伴うオーバーフィットの可能性を強調した。 また,様々なグラフタスクにおけるモデルの推論能力の伝達可能性についても検討し,モデルの適応性と実用的応用可能性を示す。 我々の調査は、グラフ推論と問題解決に特化したLSMを開発する上で、新しい青写真と貴重な洞察を提供する。

Large language models (LLMs) have achieved impressive success across several fields, but their proficiency in understanding and resolving complex graph problems is less explored. To bridge this gap, we introduce GraphInstruct, a novel and comprehensive instruction-tuning dataset designed to equip language models with the ability to tackle a broad spectrum of graph problems using explicit reasoning paths. Utilizing GraphInstruct, we build GraphWiz, an open-source language model capable of resolving various graph problem types while generating clear reasoning processes. To enhance the model's capability and reliability, we incorporate the Direct Preference Optimization (DPO) framework into the graph problem-solving context. The enhanced model, GraphWiz-DPO, achieves an average accuracy of 65% across nine tasks with different complexity levels, surpassing GPT-4 which has an average accuracy of 43.8%. Moreover, our research delves into the delicate balance between training data volume and model performance, highlighting the potential for overfitting with increased data. We also explore the transferability of the model's reasoning ability across different graph tasks, indicating the model's adaptability and practical application potential. Our investigation offers a new blueprint and valuable insights for developing LLMs specialized in graph reasoning and problem-solving.
翻訳日:2024-02-27 15:41:18 公開日:2024-02-25
# 直交制約と多角形領域に基づく特徴選択

Feature Selection Based on Orthogonal Constraints and Polygon Area ( http://arxiv.org/abs/2402.16026v1 )

ライセンス: Link先を確認
Zhenxing Zhang and Jun Ge and Zheng Wei and Chunjie Zhou and Yilei Wang(参考訳) 特徴選択の目的は,各特徴の重要性を評価することにより,認識タスクにおける特徴の最適部分集合を選択し,有効次元化を実現することである。 現在、提案されている特徴選択法は、しばしば特徴とラベルの間の識別的依存関係を見落としている。 そこで本稿では,ポリゴンの面積を考慮した新しい直交回帰モデルを提案する。 モデルは直感的に特徴とラベルの間の識別的な依存関係を捉えることができる。 さらに,直交制約による非凸最適化問題に効果的に取り組むために,ハイブリッドな非単調線形探索手法を用いる。 実験の結果,提案手法は識別的依存性情報を効果的に捉えるだけでなく,従来の特徴量削減手法や分類性能の向上にも有効であることがわかった。

The goal of feature selection is to choose the optimal subset of features for a recognition task by evaluating the importance of each feature, thereby achieving effective dimensionality reduction. Currently, proposed feature selection methods often overlook the discriminative dependencies between features and labels. To address this problem, this paper introduces a novel orthogonal regression model incorporating the area of a polygon. The model can intuitively capture the discriminative dependencies between features and labels. Additionally, this paper employs a hybrid non-monotone linear search method to efficiently tackle the non-convex optimization challenge posed by orthogonal constraints. Experimental results demonstrate that our approach not only effectively captures discriminative dependency information but also surpasses traditional methods in reducing feature dimensions and enhancing classification performance.
翻訳日:2024-02-27 15:40:56 公開日:2024-02-25
# HiGPT:不均一グラフ言語モデル

HiGPT: Heterogeneous Graph Language Model ( http://arxiv.org/abs/2402.16024v1 )

ライセンス: Link先を確認
Jiabin Tang, Yuhao Yang, Wei Wei, Lei Shi, Long Xia, Dawei Yin, Chao Huang(参考訳) 不均一グラフ学習は、ノードとエッジの有意義な表現を得るために、異種グラフ内のエンティティ間の複雑な関係や多様な関係意味を捉えることを目的としている。 ヘテロジニアスグラフニューラルネットワーク(HGNN)の最近の進歩は、関係の不均一性を考慮し、特殊メッセージ関数とアグリゲーションルールを用いることで、最先端のパフォーマンスを実現している。 しかし、異種グラフ学習のための既存のフレームワークは、多種多様な異種グラフデータセットをまたいだ一般化に制限がある。 これらのフレームワークのほとんどは、同じデータセット上の"pre-train"と"fine-tune"パラダイムに従っている。 ヘテロジニアスグラフモデルをノードトークンセットと関係型ヘテロジニアスの両方に分散シフトを持つ多様な下流学習タスクにうまく適応できるように一般化できるか?」 これらの課題に取り組むため、我々は、ヘテロジニアスグラフ命令チューニングパラダイムを持つ一般的な大規模グラフモデルhigptを提案する。 当社のフレームワークでは,ダウンストリームデータセットから微調整処理を必要とせずに,任意の異種グラフから学習することが可能である。 不均一性における分布シフトを扱うために,異種グラフ間の意味的関係を捕捉し,モデル適応を容易にする,コンテキスト内不均一グラフトークンを導入している。 ヘテロジニティを意識したグラフ命令の大規模なコーパスをHiGPTに組み込むことで、複雑な関係の不均一性を効果的に理解し、様々な種類のグラフトークンを区別することができる。 さらに,Mixture-of-Thought(MoT)命令拡張パラダイムを導入し,多様かつ情報的な命令を生成することでデータの不足を軽減する。 本稿では,包括的評価を通じて,一般化性能の点で優れた性能を示す。

Heterogeneous graph learning aims to capture complex relationships and diverse relational semantics among entities in a heterogeneous graph to obtain meaningful representations for nodes and edges. Recent advancements in heterogeneous graph neural networks (HGNNs) have achieved state-of-the-art performance by considering relation heterogeneity and using specialized message functions and aggregation rules. However, existing frameworks for heterogeneous graph learning have limitations in generalizing across diverse heterogeneous graph datasets. Most of these frameworks follow the "pre-train" and "fine-tune" paradigm on the same dataset, which restricts their capacity to adapt to new and unseen data. This raises the question: "Can we generalize heterogeneous graph models to be well-adapted to diverse downstream learning tasks with distribution shifts in both node token sets and relation type heterogeneity?'' To tackle those challenges, we propose HiGPT, a general large graph model with Heterogeneous graph instruction-tuning paradigm. Our framework enables learning from arbitrary heterogeneous graphs without the need for any fine-tuning process from downstream datasets. To handle distribution shifts in heterogeneity, we introduce an in-context heterogeneous graph tokenizer that captures semantic relationships in different heterogeneous graphs, facilitating model adaptation. We incorporate a large corpus of heterogeneity-aware graph instructions into our HiGPT, enabling the model to effectively comprehend complex relation heterogeneity and distinguish between various types of graph tokens. Furthermore, we introduce the Mixture-of-Thought (MoT) instruction augmentation paradigm to mitigate data scarcity by generating diverse and informative instructions. Through comprehensive evaluations, our proposed framework demonstrates exceptional performance in terms of generalization performance.
翻訳日:2024-02-27 15:40:44 公開日:2024-02-25
# tmt:異なる言語として異なるモダリティを処理し、音声、画像、テキスト間の三段翻訳

TMT: Tri-Modal Translation between Speech, Image, and Text by Processing Different Modalities as Different Languages ( http://arxiv.org/abs/2402.16021v1 )

ライセンス: Link先を確認
Minsu Kim, Jee-weon Jung, Hyeongseop Rha, Soumi Maiti, Siddhant Arora, Xuankai Chang, Shinji Watanabe, Yong Man Ro(参考訳) マルチモーダル情報を共同処理する能力は重要な課題になりつつある。 しかしながら、ペア型マルチモーダルデータの限られた数と、マルチモーダル学習における大きな計算要件は、開発を妨げている。 本稿では, 音声, 画像, テキストを対象とする任意のモーダル間を翻訳する新しい3モード翻訳(TMT)モデルを提案する。 本稿では,異なるモーダルを異なる言語として解釈し,マルチモーダル翻訳を機械翻訳問題として扱う,新しい視点を紹介する。 この目的のために、音声と画像データを離散トークンにトークン化し、モダリティ間の統一インターフェースを提供し、計算コストを大幅に削減する。 提案するtmtでは、マルチモーダルエンコーダ-デコーダがコア変換を行い、モダリティ固有の処理はトークン化とデトケナイゼーションの段階でのみ行われる。 提案したTMTを6つのモーダル翻訳タスクすべてで評価する。 TMTは単一モデルの性能を一貫して上回り、統一タスクは実用性だけでなくパフォーマンスにも有益であることを示した。

The capability to jointly process multi-modal information is becoming an essential task. However, the limited number of paired multi-modal data and the large computational requirements in multi-modal learning hinder the development. We propose a novel Tri-Modal Translation (TMT) model that translates between arbitrary modalities spanning speech, image, and text. We introduce a novel viewpoint, where we interpret different modalities as different languages, and treat multi-modal translation as a well-established machine translation problem. To this end, we tokenize speech and image data into discrete tokens, which provide a unified interface across modalities and significantly decrease the computational cost. In the proposed TMT, a multi-modal encoder-decoder conducts the core translation, whereas modality-specific processing is conducted only within the tokenization and detokenization stages. We evaluate the proposed TMT on all six modality translation tasks. TMT outperforms single model counterparts consistently, demonstrating that unifying tasks is beneficial not only for practicality but also for performance.
翻訳日:2024-02-27 15:40:14 公開日:2024-02-25
# 超伝導量子プロセッサにおける高次トポロジカルポンプ

High-order topological pumping on a superconducting quantum processor ( http://arxiv.org/abs/2402.16070v1 )

ライセンス: Link先を確認
Cheng-Lin Deng, Yu Liu, Yu-Ran Zhang, Xue-Gang Li, Tao Liu, Chi-Tong Chen, Tong Liu, Cong-Wei Lu, Yong-Yi Wang, Tian-Ming Li, Cai-Ping Fang, Si-Yun Zhou, Jia-Cheng Song, Yue-Shan Xu, Yang He, Zheng-He Liu, Kai-Xuan Huang, Zhong-Cheng Xiang, Jie-Ci Wang, Dong-Ning Zheng, Guang-Ming Xue, Kai Xu, H. F. Yu and Heng Fan(参考訳) 高次のトポロジカル位相は、$m$-階のトポロジを持つ$n$-次元バルクの系を指し、$(n-m)$-次元境界モードを示し、トポロジカルポンピングによって特徴づけられる。 ここでは, 2種類の2次位相ポンプを実験的に実演し, 16量子ビットの4$\times$4平方格子配列上に4つの0次元コーナー局在状態を形成する。 半充填システムの初期基底状態は、4つの等角4ビット状態の積として、断熱的スキームを用いて作成される。 揚水過程において,超格子Bose-Hubbard Hamiltonianを,ホッピング強度とオンサイト電位の両方を正確に制御することにより,アディベート的に変調する。 半パンピング期には、システムは四極子配置でコーナーローカライズ状態へと進化する。 また, 2次トポロジカルポンプのロバスト性についても, 異なるオンサイト障害を導入することにより検討した。 本研究では,超伝導量子ビットを用いた動的輸送画像からの高次位相の位相特性について検討し,高次位相のさらなる研究を促す。

High-order topological phases of matter refer to the systems of $n$-dimensional bulk with the topology of $m$-th order, exhibiting $(n-m)$-dimensional boundary modes and can be characterized by topological pumping. Here, we experimentally demonstrate two types of second-order topological pumps, forming four 0-dimensional corner localized states on a 4$\times$4 square lattice array of 16 superconducting qubits. The initial ground state of the system for half-filling, as a product of four identical entangled 4-qubit states, is prepared using an adiabatic scheme. During the pumping procedure, we adiabatically modulate the superlattice Bose-Hubbard Hamiltonian by precisely controlling both the hopping strengths and on-site potentials. At the half pumping period, the system evolves to a corner-localized state in a quadrupole configuration. The robustness of the second-order topological pump is also investigated by introducing different on-site disorder. Our work studies the topological properties of high-order topological phases from the dynamical transport picture using superconducting qubits, which would inspire further research on high-order topological phases.
翻訳日:2024-02-27 15:35:24 公開日:2024-02-25
# ROS-Causal:人間-ロボットインタラクションアプリケーションのためのROSベースの因果解析フレームワーク

ROS-Causal: A ROS-based Causal Analysis Framework for Human-Robot Interaction Applications ( http://arxiv.org/abs/2402.16068v1 )

ライセンス: Link先を確認
Luca Castri, Gloria Beraldo, Sariah Mghames, Marc Hanheide, Nicola Bellotto(参考訳) ロボットを人間共有空間に配置するには、近くのエージェントやオブジェクト間のインタラクションを理解する必要がある。 因果推論による因果関係のモデル化は、人間の行動の予測とロボットによる介入を予測している。 しかし、既存の因果発見法は、ロボット工学における標準的なデファクトであるROSエコシステム内に実装されていないため、ロボット工学における効果的な利用を妨げるため、重大な課題が生じる。 本稿では,人間とロボットの空間相互作用におけるデータ収集と因果発見のためのrosベースのフレームワークros-causalを提案する。 ROSと統合されたアドホックシミュレータは、アプローチの有効性を示し、データ収集中にロボットが因果モデルを生成することを示す。 ROS-CausalはGitHubで入手できる。

Deploying robots in human-shared spaces requires understanding interactions among nearby agents and objects. Modelling cause-and-effect relations through causal inference aids in predicting human behaviours and anticipating robot interventions. However, a critical challenge arises as existing causal discovery methods currently lack an implementation inside the ROS ecosystem, the standard de facto in robotics, hindering effective utilisation in robotics. To address this gap, this paper introduces ROS-Causal, a ROS-based framework for onboard data collection and causal discovery in human-robot spatial interactions. An ad-hoc simulator, integrated with ROS, illustrates the approach's effectiveness, showcasing the robot onboard generation of causal models during data collection. ROS-Causal is available on GitHub: https://github.com/lcastri/roscausal.git.
翻訳日:2024-02-27 15:35:01 公開日:2024-02-25
# 対数多元化と行列ノルム不等式と量子情報への応用

Log-majorization and matrix norm inequalities with application to quantum information ( http://arxiv.org/abs/2402.16067v1 )

ライセンス: Link先を確認
Fumio Hiai(参考訳) 我々は多変量金-トンプソントレースの不等式とカルチャー平均(すなわち重み付き幾何平均の多変量拡張)に関連して行列の対数行列化に関心がある。 アラキのログメジャー化の拡張を示し、量子情報における$\alpha$-$z$-r\'enyi の発散に適用する。 ゴールデン・トンプソン型の多変量トレース不等式とカルチャー平均のノルム不等式における等式について考察する。 本論文は、加重幾何平均の標準不等式における等しい場合の著者の古い結果の証明を補正するための付録を含む。

We are concerned with log-majorization for matrices in connection with the multivariate Golden--Thompson trace inequality and the Karcher mean (i.e., a multivariate extension of the weighted geometric mean). We show an extension of Araki's log-majorization and apply it to the $\alpha$-$z$-R\'enyi divergence in quantum information. We discuss the equality cases in the multivariate trace inequality of Golden--Thompson type and in the norm inequality for the Karcher mean. The paper includes an appendix to correct the proof of the author's old result on the equality case in the norm inequality for the weighted geometric mean.
翻訳日:2024-02-27 15:34:46 公開日:2024-02-25
# トークンの共有キャラクタ空間へのマッピングによるバイリンガル言語モデルの訓練

Training a Bilingual Language Model by Mapping Tokens onto a Shared Character Space ( http://arxiv.org/abs/2402.16065v1 )

ライセンス: Link先を確認
Aviad Rom and Kfir Bar(参考訳) 両言語が同じ文字で表現されることを保証するため、ヘブライ語でアラビア文字の翻訳版を用いてバイリンガルアラビア語・ヘブライ語モデルを訓練する。 アラビア語とヘブライ語に共通する形態的,構造的類似性,および膨大な数のコニャーテを考えると,言語間の知識を必要とする機械翻訳において,両言語に統一的なスクリプトを用いた言語モデルの性能を評価する。 私たちのモデルは、アラビア語のテキストをアラビア語の文字で保持するコントラストモデルよりも優れており、翻訳ステップの有効性を示しています。 他の既存の言語モデルよりも約60%小さいデータセットでトレーニングされているにもかかわらず、我々のモデルは、両方の翻訳方向で機械翻訳に匹敵するパフォーマンスを提供する。

We train a bilingual Arabic-Hebrew language model using a transliterated version of Arabic texts in Hebrew, to ensure both languages are represented in the same script. Given the morphological, structural similarities, and the extensive number of cognates shared among Arabic and Hebrew, we assess the performance of a language model that employs a unified script for both languages, on machine translation which requires cross-lingual knowledge. The results are promising: our model outperforms a contrasting model which keeps the Arabic texts in the Arabic script, demonstrating the efficacy of the transliteration step. Despite being trained on a dataset approximately 60% smaller than that of other existing language models, our model appears to deliver comparable performance in machine translation across both translation directions.
翻訳日:2024-02-27 15:34:35 公開日:2024-02-25
# LLM型チャットボットのCitation-Enhanced Generation

Citation-Enhanced Generation for LLM-based Chatbot ( http://arxiv.org/abs/2402.16063v1 )

ライセンス: Link先を確認
Weitao Li, Junkai Li, Weizhi Ma, Yang Liu(参考訳) 大規模言語モデル(llm)は、チャットボットへの統合など、さまざまなシナリオにわたる強力な汎用知性を示す。 しかし、LLMベースのチャットボットにとって重要な課題は、応答中に幻覚的コンテンツを生成できるため、適用性が著しく制限されることである。 検索拡張生成や人間フィードバックによる強化学習など幻覚を緩和するために様々な努力がなされているが、そのほとんどは追加のトレーニングとデータアノテーションを必要とする。 本稿では,新しいポストホックな \textbf{C}itation-\textbf{E}nhanced \textbf{G}eneration (\textbf{CEG}) アプローチと検索引数を組み合わせて提案する。 世代ごとの幻覚の予防に焦点を当てた従来の研究とは異なり,本手法はポストホック方式でこの問題に対処する。 生成したコンテンツに関連する文書を検索するための検索モジュールを組み込んでおり、自然言語推論に基づく引用生成モジュールを採用している。 生成されたコンテンツ内のステートメントが参照を欠くと、私たちのモデルは全てのステートメントが引用によってサポートされるまでレスポンスを再生できます。 本手法は様々なllmが可能なトレーニングフリーなプラグインである。 種々の幻覚関連データセットを用いた実験により、3つのベンチマークによる幻覚検出と応答再生の両方において、我々のフレームワークは最先端の手法よりも優れていた。 コードとデータセットは公開されます。

Large language models (LLMs) exhibit powerful general intelligence across diverse scenarios, including their integration into chatbots. However, a vital challenge of LLM-based chatbots is that they may produce hallucinated content in responses, which significantly limits their applicability. Various efforts have been made to alleviate hallucination, such as retrieval augmented generation and reinforcement learning with human feedback, but most of them require additional training and data annotation. In this paper, we propose a novel post-hoc \textbf{C}itation-\textbf{E}nhanced \textbf{G}eneration (\textbf{CEG}) approach combined with retrieval argumentation. Unlike previous studies that focus on preventing hallucinations during generation, our method addresses this issue in a post-hoc way. It incorporates a retrieval module to search for supporting documents relevant to the generated content, and employs a natural language inference-based citation generation module. Once the statements in the generated content lack of reference, our model can regenerate responses until all statements are supported by citations. Note that our method is a training-free plug-and-play plugin that is capable of various LLMs. Experiments on various hallucination-related datasets show our framework outperforms state-of-the-art methods in both hallucination detection and response regeneration on three benchmarks. Our codes and dataset will be publicly available.
翻訳日:2024-02-27 15:34:20 公開日:2024-02-25
# コンテキスト知識をエンコードする言語モデルの規模は? レイヤワイズ探究研究

How Large Language Models Encode Context Knowledge? A Layer-Wise Probing Study ( http://arxiv.org/abs/2402.16061v1 )

ライセンス: Link先を確認
Tianjie Ju, Weiwei Sun, Wei Du, Xinwei Yuan, Zhaochun Ren, Gongshen Liu(参考訳) これまでの研究は、事実の検索や文脈知識の処理において、大きな言語モデル(LLM)の興味深い能力を示してきた。 しかし、LLMが知識を符号化するレイヤーワイドな能力についての研究は限られており、内部メカニズムの理解に挑戦する。 本稿では,探索タスクを通じてllmの層別能力を調べるための最初の試みについて述べる。 我々はChatGPTの強力な生成能力を活用して探索データセットを構築し、様々な事実に対応する多種多様な一貫性のある証拠を提供する。 検証基準として$\mathcal V$-useable情報を使用し、異なるレイヤ間でコンテキスト知識をエンコードする能力をよりよく反映します。 その結果,(1)上位層における文脈知識のエンコード,(2)下位層における知識関連エンティティトークンのコンテクスト知識のエンコード,(3)下位層における他のトークンのコンテクスト知識の増大,(3)無関係なエビデンスを付与した際の中間層内でのコンテクスト知識の保持を徐々に忘れること,などが示唆された。 コードはhttps://github.com/jometeorie/probing_llamaで公開されている。

Previous work has showcased the intriguing capability of large language models (LLMs) in retrieving facts and processing context knowledge. However, only limited research exists on the layer-wise capability of LLMs to encode knowledge, which challenges our understanding of their internal mechanisms. In this paper, we devote the first attempt to investigate the layer-wise capability of LLMs through probing tasks. We leverage the powerful generative capability of ChatGPT to construct probing datasets, providing diverse and coherent evidence corresponding to various facts. We employ $\mathcal V$-usable information as the validation metric to better reflect the capability in encoding context knowledge across different layers. Our experiments on conflicting and newly acquired knowledge show that LLMs: (1) prefer to encode more context knowledge in the upper layers; (2) primarily encode context knowledge within knowledge-related entity tokens at lower layers while progressively expanding more knowledge within other tokens at upper layers; and (3) gradually forget the earlier context knowledge retained within the intermediate layers when provided with irrelevant evidence. Code is publicly available at https://github.com/Jometeorie/probing_llama.
翻訳日:2024-02-27 15:34:01 公開日:2024-02-25
# 多元性モデリングのための勾配強化深いガウス過程

Gradient-enhanced deep Gaussian processes for multifidelity modelling ( http://arxiv.org/abs/2402.16059v1 )

ライセンス: Link先を確認
Viv Bone, Chris van der Heide, Kieran Mackle, Ingo H.J. Jahn, Peter M. Dower, Chris Manzie(参考訳) マルチファイダリティモデルは、複数のソースからのデータを統合して、基礎となるプロセスのための単一の近似器を生成する。 低忠実度サンプルは補間誤差を低減するために、希少な高忠実度サンプルは低忠実度サンプルのバイアスやノイズを補うために用いられる。 ディープガウス過程(GP)は、非パラメトリックであり、オーバーフィッティングに頑健であり、小さなデータセットでうまく機能し、そして重要なことに、異なる忠実なデータ間の非線形および入力依存の関係を捉えることができるため、多忠実なモデリングには魅力的である。 多くのデータセットは、特に自動微分と互換性のある計算モデルや随伴解を持つ場合、自然に勾配データを含む。 主に、この研究は勾配データを組み込むために深いGPを拡張している。 本研究では,超音速飛行車両の空力係数を様々な飛行条件と測地条件で予測する解析的テスト問題と実測偏微分方程式問題に対して,本手法を実証する。 どちらの例でも、勾配付きディープGPは勾配付き線形GPモデルとその非勾配付きGPモデルよりも優れる。

Multifidelity models integrate data from multiple sources to produce a single approximator for the underlying process. Dense low-fidelity samples are used to reduce interpolation error, while sparse high-fidelity samples are used to compensate for bias or noise in the low-fidelity samples. Deep Gaussian processes (GPs) are attractive for multifidelity modelling as they are non-parametric, robust to overfitting, perform well for small datasets, and, critically, can capture nonlinear and input-dependent relationships between data of different fidelities. Many datasets naturally contain gradient data, especially when they are generated by computational models that are compatible with automatic differentiation or have adjoint solutions. Principally, this work extends deep GPs to incorporate gradient data. We demonstrate this method on an analytical test problem and a realistic partial differential equation problem, where we predict the aerodynamic coefficients of a hypersonic flight vehicle over a range of flight conditions and geometries. In both examples, the gradient-enhanced deep GP outperforms a gradient-enhanced linear GP model and their non-gradient-enhanced counterparts.
翻訳日:2024-02-27 15:33:37 公開日:2024-02-25
# 余計なことを言う:ギスト圧縮によるプロンプト学習行動の理解

Say More with Less: Understanding Prompt Learning Behaviors through Gist Compression ( http://arxiv.org/abs/2402.16058v1 )

ライセンス: Link先を確認
Xinze Li, Zhenghao Liu, Chenyan Xiong, Shi Yu, Yukun Yan, Shuo Wang, Ge Yu(参考訳) 大規模言語モデル(llm)は、ユーザの意図に沿った出力を生成するために、入力コンテキストとして長いプロンプトを必要とする。 本稿では,Gist Conditioned Decoding(Gist-COCO)モデルを提案する。 Gist-COCOはエンコーダ-デコーダベースの言語モデルを採用し、その後追加のエンコーダをプラグインモジュールとして組み込んでgistトークンを使用してプロンプトを圧縮する。 圧縮プラグインモジュールを微調整し、gistトークンの表現を使用して、バニラ言語モデルの生のプロンプトをエミュレートする。 gistトークンの表現をgistプロンプトに言語化することにより、Gist-COCOの圧縮能力を高い圧縮率で異なるLLMに一般化することができる。 実験により, Gist-COCOは, 経路圧縮タスクと命令圧縮タスクの両方において, 従来のプロンプト圧縮モデルより優れていることを示した。 Gist動詞化結果のさらなる分析は、我々のgistプロンプトが言語モデルを支援するために異なる機能を提供していることを示唆している。 彼らは直接、潜在的な答えを提供し、思考の連鎖を生成したり、単に入力を繰り返す。 すべてのデータとコードはhttps://github.com/OpenMatch/Gist-COCO で公開されている。

Large language models (LLMs) require lengthy prompts as the input context to produce output aligned with user intentions, a process that incurs extra costs during inference. In this paper, we propose the Gist COnditioned deCOding (Gist-COCO) model, introducing a novel method for compressing prompts which also can assist the prompt interpretation and engineering. Gist-COCO employs an encoder-decoder based language model and then incorporates an additional encoder as a plugin module to compress prompts with inputs using gist tokens. It finetunes the compression plugin module and uses the representations of gist tokens to emulate the raw prompts in the vanilla language model. By verbalizing the representations of gist tokens into gist prompts, the compression ability of Gist-COCO can be generalized to different LLMs with high compression rates. Our experiments demonstrate that Gist-COCO outperforms previous prompt compression models in both passage and instruction compression tasks. Further analysis on gist verbalization results suggests that our gist prompts serve different functions in aiding language models. They may directly provide potential answers, generate the chain-of-thought, or simply repeat the inputs. All data and codes are available at https://github.com/OpenMatch/Gist-COCO .
翻訳日:2024-02-27 15:33:13 公開日:2024-02-25
# ファノコヒーレンス生成のエネルギー学

Energetics of Fano coherence generation ( http://arxiv.org/abs/2402.16056v1 )

ライセンス: Link先を確認
Ludovica Donati, Francesco Saverio Cataliotti, Stefano Gherardini(参考訳) 多レベル量子システムでは、ファノコヒーレンスは、非コヒーレント過程を特徴付けるモードの連続体との相互作用による量子コヒーレンスの形成を表す。 不整合源が消滅すると、ファノコヒーレンスは消滅する傾向がある。 本稿では,ファノコヒーレンス生成の根底にある真に量子的な特性の存在を証明できるV型3レベル量子システムを提案する。 我々は、離散系内の確率的エネルギー変動のカークウッド・ディラック準確率分布の正の損失を許容する作業条件を決定することによってこれを行う。 また、ファノのコヒーレンスの生成が非無視可能な量の抽出可能な作業をもたらす非平衡状態の存在を示すが、離散系の初期状態がエネルギー固有基底の重畳である場合も仮定する。 プロセス全体の熱力学的効率を調べた結果,本論文は結論に達した。

In a multi-level quantum system Fano coherences stand for the formation of quantum coherences due to the interaction with the continuum of modes characterizing an incoherent process. When the incoherent source vanishes, Fano coherences tend to disappear. In this paper we propose a V-type three-level quantum system on which we certify the presence of genuinely quantum traits underlying the generation of Fano coherences. We do this by determining work conditions that allows for the loss of positivity of the Kirkwood-Dirac quasiprobability distribution of the stochastic energy variations within the discrete system. We also show the existence of nonequilibrium regimes where the generation of Fano coherences leads to a non-negligible amount of extractable work, however provided the initial state of the discrete system is in a superposition of the energy eigenbasis. We conclude the paper by studying the thermodynamic efficiency of the whole process.
翻訳日:2024-02-27 15:32:49 公開日:2024-02-25
# 緊急救助活動におけるUAVフォッグ展開効率の最大化

Maximizing UAV Fog Deployment Efficiency for Critical Rescue Operations ( http://arxiv.org/abs/2402.16052v1 )

ライセンス: Link先を確認
Abdenacer Naouri, Huansheng Ning, Nabil Abdelkader Nouri, Amar Khelloufi, Abdelkarim Ben Sada, Salim Naouri, Attia Qammar and Sahraoui Dhelim(参考訳) 災害シナリオや高高度救助活動では、無人航空機(UAV)を霧のノードとして統合することが重要になっている。 この統合により、影響を受ける人口とIoT(Internet of Things)がサポートする不可欠な健康監視デバイスとの間のスムーズな接続が保証される。 このような環境でのUAVの統合は本質的に困難であり、主な目的はネットワーク接続とカバー範囲の最大化であり、ネットワークの寿命をエネルギー効率のよい戦略で延長することである。 本稿では,システムの適応性と運用効率を最適化する動的uavベースのフォグ配置を中心とした新しいモデルを提案する。 まず、問題を2つのサブプロブレムに分解した。 接続性とカバレッジ サブプロブレム、ネットワーク寿命最適化サブプロブレム。 我々は、UAV霧の展開問題を一目的最適化として定式化し、救助任務に配備されたUAV霧ノードに特化した特殊なUAV霧の配置アルゴリズムを導入する。 ネットワーク寿命最適化サブプロブレムは1次元スワップ法により効率よく解決される。 その後,避難時の動的ネットワークにおけるUAVフォグノード配置に対する新たな最適化手法を導入し,ネットワークの寿命を延ばしながら,モバイルユーザへの堅牢な接続性と最大カバレッジを確保することに注力した。 最後に,動的ネットワークにおける霧ノード配置のための適応鯨最適化アルゴリズム(WOA)を提案する。 その機敏さ、迅速な収束、計算能力の低さは、高圧環境では理想的だ。

In disaster scenarios and high-stakes rescue operations, integrating Unmanned Aerial Vehicles (UAVs) as fog nodes has become crucial. This integration ensures a smooth connection between affected populations and essential health monitoring devices, supported by the Internet of Things (IoT). Integrating UAVs in such environments is inherently challenging, where the primary objectives involve maximizing network connectivity and coverage while extending the network's lifetime through energy-efficient strategies to serve the maximum number of affected individuals. In this paper, We propose a novel model centred around dynamic UAV-based fog deployment that optimizes the system's adaptability and operational efficacy within the afflicted areas. First, we decomposed the problem into two subproblems. Connectivity and coverage subproblem, and network lifespan optimization subproblem. We shape our UAV fog deployment problem as a uni-objective optimization and introduce a specialized UAV fog deployment algorithm tailored specifically for UAV fog nodes deployed in rescue missions. While the network lifespan optimization subproblem is efficiently solved via a one-dimensional swapping method. Following that, We introduce a novel optimization strategy for UAV fog node placement in dynamic networks during evacuation scenarios, with a primary focus on ensuring robust connectivity and maximal coverage for mobile users, while extending the network's lifespan. Finally, we introduce Adaptive Whale Optimization Algorithm (WOA) for fog node deployment in a dynamic network. Its agility, rapid convergence, and low computational demands make it an ideal fit for high-pressure environments.
翻訳日:2024-02-27 15:32:36 公開日:2024-02-25
# lstp: 長文映像理解のための時空間学習

LSTP: Language-guided Spatial-Temporal Prompt Learning for Long-form Video-Text Understanding ( http://arxiv.org/abs/2402.16050v1 )

ライセンス: Link先を確認
Yuxuan Wang, Yueqian Wang, Pengfei Wu, Jianxin Liang, Dongyan Zhao, Zilong Zheng(参考訳) ビデオ言語モデリングの進歩にもかかわらず、タスク固有の言語クエリに対するロングフォームビデオの解釈という計算上の課題は、高次元ビデオデータの複雑さと、空間的および時間的な言語と視覚的手がかりの相違が主な原因である。 この問題に対処するために,言語誘導型時空間プロンプト学習(LSTP)という新しいアプローチを導入する。 このアプローチは、時間的情報を利用して関連ビデオコンテンツを効率的に抽出する光フローを先行する時間的プロンプトサンプリング(TPS)と、視覚的要素とテキスト的要素の間の複雑な空間的関係を包含する空間的プロンプトソルバー(SPS)の2つの重要な構成要素を特徴とする。 TPSとSPSを協調学習戦略で調和させることで,計算効率,時間的理解,空間時間的アライメントを著しく向上させる。 ビデオ言語事前学習(VLP)と大規模言語モデル(LLM)を多用したビデオ質問応答と時間的質問の時間的評価により,提案したLSTPパラダイムの優れた性能,速度,汎用性を実証した。

Despite progress in video-language modeling, the computational challenge of interpreting long-form videos in response to task-specific linguistic queries persists, largely due to the complexity of high-dimensional video data and the misalignment between language and visual cues over space and time. To tackle this issue, we introduce a novel approach called Language-guided Spatial-Temporal Prompt Learning (LSTP). This approach features two key components: a Temporal Prompt Sampler (TPS) with optical flow prior that leverages temporal information to efficiently extract relevant video content, and a Spatial Prompt Solver (SPS) that adeptly captures the intricate spatial relationships between visual and textual elements. By harmonizing TPS and SPS with a cohesive training strategy, our framework significantly enhances computational efficiency, temporal understanding, and spatial-temporal alignment. Empirical evaluations across two challenging tasks--video question answering and temporal question grounding in videos--using a variety of video-language pretrainings (VLPs) and large language models (LLMs) demonstrate the superior performance, speed, and versatility of our proposed LSTP paradigm.
翻訳日:2024-02-27 15:32:12 公開日:2024-02-25
# LLMは非因果共振器である

LLMs with Chain-of-Thought Are Non-Causal Reasoners ( http://arxiv.org/abs/2402.16048v1 )

ライセンス: Link先を確認
Guangsheng Bao, Hongbo Zhang, Linyi Yang, Cunxiang Wang, Yue Zhang(参考訳) 本稿では,Large Language Models(LLM)推論における思考の連鎖(CoT)の役割について考察する。 タスクパフォーマンス向上の可能性にも拘わらず,不正確なcotに続き,その逆も正解率の驚くべき頻度を示す。 我々は,LLMにおけるCoT/インストラクションと回答の因果関係を評価するために因果解析を用い,LLMが近似する構造因果モデル(SCM)を明らかにする。 インプリッドSCMと人間の推論とを比較して,LLMと人間の推論プロセスの相違点を明らかにする。 さらに,暗黙のscmの因果構造に影響を与える要因について検討し,文脈内学習,教師付き微調整,強化学習が因果関係に大きな影響を与えることを明らかにした。 コードと結果をhttps://github.com/stevenzhb/cot_causal_ analysisでリリースします。

This paper explores the role of the Chain of Thought (CoT) in Large Language Models (LLMs) reasoning. Despite its potential to improve task performance, our analysis reveals a surprising frequency of correct answers following incorrect CoTs and vice versa. We employ causal analysis to assess the cause-effect relationship between CoTs/instructions and answers in LLMs, uncovering the Structural Causal Model (SCM) that LLMs approximate. By comparing the implied SCM with that of human reasoning, we highlight discrepancies between LLM and human reasoning processes. We further examine the factors influencing the causal structure of the implied SCM, revealing that in-context learning, supervised fine-tuning, and reinforcement learning on human feedback significantly impact the causal relations. We release the code and results at https://github.com/StevenZHB/CoT_Causal_Analysis.
翻訳日:2024-02-27 15:31:48 公開日:2024-02-25
# 連続可変量子受動光ネットワーク

Continuous-variable quantum passive optical network ( http://arxiv.org/abs/2402.16044v1 )

ライセンス: Link先を確認
Adnan A.E. Hajomer, Ivan Derkach, Radim Filip, Ulrik L. Andersen, Vladyslav C. Usenko, Tobias Gehring(参考訳) 多くのユーザによるスケーラブルでセキュアな量子ネットワークの構築は、アプリケーションの可能性が高いが、実用上の課題も多い。 この追求における重要な一歩は、直接光学接続上に実装されたポイント・ツー・ポイントプロトコルから、2人の遠いユーザーの間で暗号鍵を確立するための情報理論的に安全な方法である量子鍵分布の拡張である。 しかし、量子アクセスネットワークの実現はこれまで、確率的あるいは時間的共有戦略に依存してきた。 ここでは,このような制約のない解が,連続変数系の排他的特徴から生じることを理論的および実験的に示す。 そこで本研究では,コヒーレント状態に基づく連続可変量子受動光ネットワーク(cv-qpon)プロトコルを提案する。 ビームスプリッタで分割されたコヒーレント状態の固有波状特性と電場二次測定を用いてこれを実現する。 ネットワークユーザ毎に異なる信頼レベルを持つ2つのプロトコルを示し,11kmのアクセスリンクを有する8ユーザからなる量子アクセスネットワークにおいて,鍵生成を実験的に実証する。 ユーザに対する信頼の前提により、1.5Mbits/sと2.1Mbits/sのネットワークキー生成に到達します。 我々のCV-QPONプロトコルは、ネットワークのキャパシティを拡張して、数万のユーザを高速で収容する可能性を実証し、標準の通信技術を使用して低コストで高レートでスケーラブルな量子アクセスネットワークを確立し、既存のアクセスネットワークインフラを直接利用するための道筋を提供します。

Building scalable and secure quantum networks with many users has a high application potential but also holds many practical challenges. A significant stride in this pursuit involves extending quantum key distribution, an information-theoretically secure method for establishing cryptographic keys between two distant users, from a point-to-point protocol implemented on direct optical connections to a quantum access network. Yet, realizations of quantum access networks have, so far, relied on probabilistic or time-sharing strategies. Here, we show theoretically and experimentally that a solution without these constraints can come from the exclusive features of continuous-variable systems. Based on coherent states, we propose continuous-variable quantum passive-optical-network (CV-QPON) protocols, enabling deterministic and simultaneous secret key generation among all network users. We achieve this by leveraging the inherent wave-like property of coherent states split at a beam splitter and electric-field quadrature measurements. We show two protocols with different trust levels assigned to the network users and experimentally demonstrate key generation in a quantum access network with 8 users, each with an 11 km span of access link. Depending on the trust assumptions about users, we reach 1.5 Mbits/s and 2.1 Mbits/s of total network key generation. Demonstrating the potential to expand the network's capacity to accommodate tens of users at a high rate, our CV-QPON protocols offer a pathway toward establishing low-cost, high-rate, and scalable quantum access networks using standard telecom technologies and directly exploiting the existing access network infrastructure.
翻訳日:2024-02-27 15:31:31 公開日:2024-02-25
# LuaTaint:IoTデバイスのWebインターフェースフレームワーク脆弱性を静的に解析するシステム

LuaTaint: A Static Taint Analysis System for Web Interface Framework Vulnerability of IoT Devices ( http://arxiv.org/abs/2402.16043v1 )

ライセンス: Link先を確認
Jiahui Xiang, Wenhai Wang, Tong Ye, Peiyu Liu(参考訳) IoTデバイスは現在、広く使用されているため、継続的な悪意のある攻撃に直面している。 これらのIoTデバイスの中で、Web脆弱性は、不適切なパーミッションコントロールやセキュアでないインターフェースなど、その固有の特性のために広く利用されている。 近年,組込みシステムWebインターフェースフレームワークは非常に多様化しており,開発者がユーザ入力パラメータの検出を忘れたり,検出プロセスが厳格でない場合には,特定の脆弱性が発生する可能性がある。 したがって、自動化された方法でIoTデバイスのWebインターフェースの脆弱性を正確かつ包括的に発見することは大きな課題である。 本論文は課題の解決を目的としている。 我々は,一般的なWebインターフェースフレームワークであるLuaTaint用に,LuaTaintと呼ばれる自動脆弱性検出システムを開発した。 このシステムは静的なtaint分析を使用して、モバイル端末プラットフォームのwebセキュリティ問題に対処し、検出カバレッジを確保する。 テイント検出プロセス内でページハンドラ制御ロジックに関連するルールを統合し、拡張性を向上させる。 また,大規模言語モデルの助けを借りて,手作業解析の必要性を低減し,処理後ステップを実装した。 LuaTaintのプロトタイプを開発し、8つの有名なベンダの92のIoTファームウェアでテストしました。 LuaTaintは68の未知の脆弱性を発見した。

IoT devices are currently facing continuous malicious attacks due to their widespread use. Among these IoT devices, web vulnerabilities are also widely exploited because of their inherent characteristics, such as improper permission controls and insecure interfaces. Recently, the embedded system web interface framework has become highly diverse, and specific vulnerabilities can arise if developers forget to detect user input parameters or if the detection process is not strict enough. Therefore, discovering vulnerabilities in the web interfaces of IoT devices accurately and comprehensively through an automated method is a major challenge. This paper aims to work out the challenge. We have developed an automated vulnerability detection system called LuaTaint for the typical web interface framework, LuCI. The system employs static taint analysis to address web security issues on mobile terminal platforms to ensure detection coverage. It integrates rules pertaining to page handler control logic within the taint detection process to improve its extensibility. We also implemented a post-processing step with the assistance of large language models to enhance accuracy and reduce the need for manual analysis. We have created a prototype of LuaTaint and tested it on 92 IoT firmwares from 8 well-known vendors. LuaTaint has discovered 68 unknown vulnerabilities.
翻訳日:2024-02-27 15:31:05 公開日:2024-02-25
# 二重キャビティ・マグノン系におけるジョセフソンパラメトリック増幅器による絡み合いの増大

Enhancement of Entanglement via Josephson Parametric Amplifier in a Dual Cavity-Magnon System ( http://arxiv.org/abs/2402.16042v1 )

ライセンス: Link先を確認
Abdelkader Hidki, Abderrahim Lakhfif, Mostafa Nassik, Rizwan Ahmed, and Amjad Sohail(参考訳) 2つのマイクロ波(MW)断面キャビティマグノン系において,マルチパーティイトエンタングルメントと量子ステアリングを作製する手法について述べる。 マグノンの圧縮状態を達成するために、ジョセフソンパラメトリック増幅器(jpa)は、2つのキャビティを駆動する圧縮真空場を生成する。 理論上,キャビティとキャビティの絡み合いは共鳴点において生じるが,キャビティとマグノンの減衰率の増加はキャビティとマグノンの絡み合いを生じさせる。 スクイーズパラメータを変更して崩壊率を増加させることで,キャビティ・キャビティ・エンタングルメントをキャビティ・マグノン・エンタングルメントに変換することができる。 さらに、キャビティ・キャビティ・エンタングルメント(最大2.8K)は、キャビティ・マグノン・エンタングルメント(最大0.4K)に比べてより強いだけでなく、より堅牢であることがわかった。 さらに重要なことに、真の光子-マグノン-光子三重項の絡み合いは達成可能であり、熱揺らぎに対して頑健であり、スクイーズパラメータに強く依存している。 さらに、現在の双対キャビティ-マグノン系では、対数結合が等しいときに二方向量子ステアリングが見つかる。 本研究は,多成分量子相関を実現するための単純かつ実用的な手法を提供する。

In the two microwave (MW) cross-shaped cavity magnon system, we describe a method to produce multipartite entanglement and quantum steering. To achieve squeezed states of the magnons, a Josephson parametric amplifier (JPA) creates a squeezed vacuum field that drives the two cavities. We theoretically demonstrate that the cavity-cavity entanglement can be generated at the resonance point, however, increasing the cavity and magnon decay rates generate the cavity-magnon entanglement. By changing the squeezing parameter and increasing the decay rates, we can transfer the cavity-cavity entanglement to cavity-magnon entanglement. Furthermore, the cavity-cavity entanglement (survive up to 2.8K) not only found to be much stronger but also more robust as compared to cavity-magnon entanglement (survive up to 0.4K). More importantly, the genuine photon-magnon-photon tripartite entanglement could be achieved, which is robust against the thermal fluctuations and depends strongly on squeezing parameter. Furthermore, for current dual cavity-magnon system, two-way quantum steering is found when the optomagnonical couplings are equal. The current study offers a straightforward and practical method for achieving multipartite quantum correlations.
翻訳日:2024-02-27 15:30:46 公開日:2024-02-25
# deepforge: モデル予測制御による金属成形の組織制御にaiを活用する

DeepForge: Leveraging AI for Microstructural Control in Metal Forming via Model Predictive Control ( http://arxiv.org/abs/2402.16119v1 )

ライセンス: Link先を確認
Jan Petrik and Markus Bambach(参考訳) 本研究では,モデル予測制御(MPC)とDeepForgeと呼ばれる機械学習モデルを組み合わせた閉鎖型熱間鍛造における組織制御手法を提案する。 deepforgeは1d畳み込みニューラルネットワークとゲートリカレントユニットを組み合わせたアーキテクチャを使用している。 ワークの表面温度測定を入力として、鍛造時の組織変化を予測する。 また、DeepForgeのアーキテクチャと3ストローク鍛造プロセスを用いてデータセットを生成するために使用される有限要素シミュレーションモデルについても詳述する。 結果は、deepforgeが平均絶対誤差0.4$\pm$0.3%で微構造を予測する能力を示している。 さらに, 作業中の待ち時間を調整するため, MPCを用いて温度変動を効果的に防止し, 作業の特定の2D領域内で35ミクロン未満の目標粒径を実現することを検討した。 これらの結果は実験的に検証され、温度をさらなる自由度として使用できる鍛造プロセスにおいて、制御と品質を向上させるための重要なステップを示す。

This study presents a novel method for microstructure control in closed die hot forging that combines Model Predictive Control (MPC) with a developed machine learning model called DeepForge. DeepForge uses an architecture that combines 1D convolutional neural networks and gated recurrent units. It uses surface temperature measurements of a workpiece as input to predict microstructure changes during forging. The paper also details DeepForge's architecture and the finite element simulation model used to generate the data set, using a three-stroke forging process. The results demonstrate DeepForge's ability to predict microstructure with a mean absolute error of 0.4$\pm$0.3%. In addition, the study explores the use of MPC to adjust inter-stroke wait times, effectively counteracting temperature disturbances to achieve a target grain size of less than 35 microns within a specific 2D region of the workpiece. These results are then verified experimentally, demonstrating a significant step towards improved control and quality in forging processes where temperature can be used as an additional degree of freedom in the process.
翻訳日:2024-02-27 15:26:49 公開日:2024-02-25
# RoboCodeX:ロボット行動合成のためのマルチモーダルコード生成

RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis ( http://arxiv.org/abs/2402.16117v1 )

ライセンス: Link先を確認
Yao Mu, Junting Chen, Qinglong Zhang, Shoufa Chen, Qiaojun Yu, Chongjian Ge, Runjian Chen, Zhixuan Liang, Mengkang Hu, Chaofan Tao, Peize Sun, Haibao Yu, Chao Yang, Wenqi Shao, Wenhai Wang, Jifeng Dai, Yu Qiao, Mingyu Ding, Ping Luo(参考訳) ロボット行動合成は、マルチモーダル入力を理解し、ロボットの正確な物理的制御を生成する問題であり、Embodied AIの重要な部分である。 マルチモーダルな大規模言語モデルをハイレベルな理解に応用することは成功したが、これらの概念的理解を様々なシナリオにまたがる一般化を達成しつつ、詳細なロボット行動に変換することは依然として困難である。 本稿では,RoboCodeXと呼ばれる汎用ロボット行動合成のための木構造型マルチモーダルコード生成フレームワークを提案する。 robocodexは、アフォーマンスや安全性の制約といった物理的な好みからなる、複数のオブジェクト中心の操作ユニットにハイレベルなヒューマン命令を分解し、様々なロボティクスプラットフォームにまたがる一般化能力を導入するためにコード生成を適用する。 概念的および知覚的理解を制御コマンドにマッピングする能力をさらに強化するため、事前学習のための特別なマルチモーダル推論データセットを収集し、教師付き微調整のための反復的自己更新手法を導入する。 広範な実験により、robocodexは4種類の操作タスクと1つのナビゲーションタスクでシミュレーターと実際のロボットの両方で最先端のパフォーマンスを達成している。

Robotic behavior synthesis, the problem of understanding multimodal inputs and generating precise physical control for robots, is an important part of Embodied AI. Despite successes in applying multimodal large language models for high-level understanding, it remains challenging to translate these conceptual understandings into detailed robotic actions while achieving generalization across various scenarios. In this paper, we propose a tree-structured multimodal code generation framework for generalized robotic behavior synthesis, termed RoboCodeX. RoboCodeX decomposes high-level human instructions into multiple object-centric manipulation units consisting of physical preferences such as affordance and safety constraints, and applies code generation to introduce generalization ability across various robotics platforms. To further enhance the capability to map conceptual and perceptual understanding into control commands, a specialized multimodal reasoning dataset is collected for pre-training and an iterative self-updating methodology is introduced for supervised fine-tuning. Extensive experiments demonstrate that RoboCodeX achieves state-of-the-art performance in both simulators and real robots on four different kinds of manipulation tasks and one navigation task.
翻訳日:2024-02-27 15:26:31 公開日:2024-02-25
# FuseChat: チャットモデルの知識融合

FuseChat: Knowledge Fusion of Chat Models ( http://arxiv.org/abs/2402.16107v1 )

ライセンス: Link先を確認
Fanqi Wan, Ziyi Yang, Longguang Zhong, Xiaojun Quan, Xinting Huang, Wei Bi(参考訳) 大きな言語モデル(LLM)をスクラッチからトレーニングすることは、機能と強みの異なるモデルにつながるが、このアプローチは相当なコストを発生させ、能力の冗長性をもたらす可能性がある。 代替戦略として、既存のLLMをより堅牢なLLMに組み込むことで、高価な事前訓練の必要性を軽減できる。 しかし、llmsの多様なアーキテクチャにより、直接パラメータブレンディングは実現不可能であることが証明される。 近年,複数の構造変化 LLM の集合的知識を,軽量な連続学習により目標 LLM に伝達する知識融合の概念を導入している。 本稿では、チャットLLMの融合を実現するために、textsc{FuseLLM}フレームワークのスケーラビリティと柔軟性を拡張し、その結果、textsc{FuseChat}を実現する。 \textsc{fusechat} は2つの主要なステージからなる。 まず,軽量な微調整による同一構造と大きさの複数のターゲットllmを導出するために,構造的およびスケール変数のソースllmに対する知識融合を行う。 次に,これらのLLMをパラメータ空間内にマージし,微調整前後のパラメータ行列の変動率に基づいてマージ重みを決定する手法を提案する。 アーキテクチャとスケールが多様である3つの著名なチャットLLM,すなわち \texttt{NH2-Mixtral-8x7B}, \texttt{NH2-Solar-10.7B}, \texttt{OpenChat-3.5-7B} を用いたアプローチを検証する。 様々なチャットドメインにまたがる実験結果は、7B と 34B スケールのチャット LLM の幅広い範囲における \texttt{\textsc{FuseChat}-7B} の優位性を示し、さらに \texttt{GPT-3.5 ( March)} を超え、 \texttt{Mixtral-8x7B-Instruct} に近づいた。 私たちのコード、モデルウェイト、データは、 \url{https://github.com/fanqiwan/FuseLLM}で公開アクセスできます。

While training large language models (LLMs) from scratch can indeed lead to models with distinct capabilities and strengths, this approach incurs substantial costs and may lead to potential redundancy in competencies. An alternative strategy is to combine existing LLMs into a more robust LLM, thereby diminishing the necessity for expensive pre-training. However, due to the diverse architectures of LLMs, direct parameter blending proves to be unfeasible. Recently, \textsc{FuseLLM} introduced the concept of knowledge fusion to transfer the collective knowledge of multiple structurally varied LLMs into a target LLM through lightweight continual training. In this report, we extend the scalability and flexibility of the \textsc{FuseLLM} framework to realize the fusion of chat LLMs, resulting in \textsc{FuseChat}. \textsc{FuseChat} comprises two main stages. Firstly, we undertake knowledge fusion for structurally and scale-varied source LLMs to derive multiple target LLMs of identical structure and size via lightweight fine-tuning. Then, these target LLMs are merged within the parameter space, wherein we propose a novel method for determining the merging weights based on the variation ratio of parameter matrices before and after fine-tuning. We validate our approach using three prominent chat LLMs with diverse architectures and scales, namely \texttt{NH2-Mixtral-8x7B}, \texttt{NH2-Solar-10.7B}, and \texttt{OpenChat-3.5-7B}. Experimental results spanning various chat domains demonstrate the superiority of \texttt{\textsc{FuseChat}-7B} across a broad spectrum of chat LLMs at 7B and 34B scales, even surpassing \texttt{GPT-3.5 (March)} and approaching \texttt{Mixtral-8x7B-Instruct}. Our code, model weights, and data are openly accessible at \url{https://github.com/fanqiwan/FuseLLM}.
翻訳日:2024-02-27 15:26:10 公開日:2024-02-25
# インフォームドメタラーニング

Informed Meta-Learning ( http://arxiv.org/abs/2402.16105v1 )

ライセンス: Link先を確認
Katarzyna Kobalczyk, Mihaela van der Schaar(参考訳) 現実のアプリケーションで一般的なノイズや低データのレシエーションでは、機械学習の際立った課題は、データ効率と堅牢性を促進する誘導バイアスを効果的に取り入れることである。 メタラーニングとインシデントMLは、事前知識をMLパイプラインに組み込むための2つのアプローチとして際立っている。 前者は純粋にデータ駆動の事前情報源に依存しているが、後者は専門知識の形式的な表現によって導かれる。 本稿では,人間と機械のクロスタスク知識共有における相補性を求める,新しいハイブリッドパラダイムを提案する。 我々は,情報メタ学習の基礎的構成要素を確立し,この枠組みの具体的インスタンス化を示す。 本研究では,データ効率と観測ノイズに対するロバスト性,タスク分散シフト,不均一性を改善する上で,インフォームドメタラーニングの潜在的メリットを実証する。

In noisy and low-data regimes prevalent in real-world applications, an outstanding challenge of machine learning lies in effectively incorporating inductive biases that promote data efficiency and robustness. Meta-learning and informed ML stand out as two approaches for incorporating prior knowledge into the ML pipeline. While the former relies on a purely data-driven source of priors, the latter is guided by a formal representation of expert knowledge. This paper introduces a novel hybrid paradigm, informed meta-learning, seeking complementarity in cross-task knowledge sharing of humans and machines. We establish the foundational components of informed meta-learning and present a concrete instantiation of this framework--the Informed Neural Process. Through a series of illustrative and larger-scale experiments, we demonstrate the potential benefits of informed meta-learning in improving data efficiency and robustness to observational noise, task distribution shifts, and heterogeneity.
翻訳日:2024-02-27 15:25:27 公開日:2024-02-25
# 予測確率の解釈:モデル信頼度か人間のラベル変動か?

Interpreting Predictive Probabilities: Model Confidence or Human Label Variation? ( http://arxiv.org/abs/2402.16102v1 )

ライセンス: Link先を確認
Joris Baan, Raquel Fern\'andez, Barbara Plank, Wilker Aziz(参考訳) ますます強力でユーザ対応のNLPシステムが台頭し、結果よりも予測分布の質を評価することによって、不確実性の優れた表現があるかどうかを評価することへの関心が高まっている。 私たちは、まったく異なる評価プロトコルを駆動する2つの主要な視点を特定します。 第一は予測確率をモデル信頼の指標として扱い、第二は人間のラベルの変化の指標として扱う。 我々は,それらのメリットと限界を議論し,信頼に値するシステムと公平なnlpシステムの両方にとって重要であるが,単一の予測分布の活用には限界がある,という立場を取る。 我々はツールを推奨し、人間のラベルに関する不確実性や不確実性について不整合表現を持つモデルへのエキサイティングな方向を示す。

With the rise of increasingly powerful and user-facing NLP systems, there is growing interest in assessing whether they have a good representation of uncertainty by evaluating the quality of their predictive distribution over outcomes. We identify two main perspectives that drive starkly different evaluation protocols. The first treats predictive probability as an indication of model confidence; the second as an indication of human label variation. We discuss their merits and limitations, and take the position that both are crucial for trustworthy and fair NLP systems, but that exploiting a single predictive distribution is limiting. We recommend tools and highlight exciting directions towards models with disentangled representations of uncertainty about predictions and uncertainty about human labels.
翻訳日:2024-02-27 15:25:14 公開日:2024-02-25
# オープン量子系におけるメモリ損失の伝染

Memory loss is contagious in open quantum systems ( http://arxiv.org/abs/2402.16096v1 )

ライセンス: Link先を確認
Anael Ben-Asher, Antonio I. Fern\'andez-Dom\'inguez and Johannes Feist(参考訳) メモリレス(マルコフアン)系-バス相互作用は物理学に基本的な関心を持つ。 典型的には記憶の欠如は浴槽の特性に由来するが、ここでは2番目の浴槽とのマルコフ相互作用によってシステムが失われる可能性があることを実証する。 これはマルコビアン性の性質が ``contagious'' であること、すなわち、それらが相互作用する系を通してある浴槽から別の浴槽へ移動することができることを示唆している。 システム損失によるマルコフの相互作用を前提としたBloch-Redfield-inspiredアプローチを導入し,非マルコフ浴に結合した損失系における入浴型人口移動の記述を大幅に改善する。 さらに、このような相互作用は、散逸によるシステムのエネルギーレベルの拡大を考慮した効果的なスペクトル密度によってよく説明されていることを示している。 本研究は,複雑なシステムバス構成の理論記述における計算要求を低減し,対直観的マルコフ相互作用のさらなる研究の道を開くものである。

Memoryless (Markovian) system-bath interactions are of fundamental interest in physics. While typically the absence of memory originates from the characteristics of the bath, here we demonstrate that it can result from the system becoming lossy due to the Markovian interaction with a second bath. This suggests that the property of Markovianity is ``contagious'', i.e., it can be transferred from one bath to another through the system with which they both interact. We introduce a Bloch-Redfield-inspired approach that assumes a Markovian interaction due to the system losses and significantly improves the description of the bath-driven population transfer in a lossy system coupled to a non-Markovian bath. Furthermore, it indicates that such interactions are well-described by an effective spectral density that takes into account the broadening of the system's energy levels due to dissipation. Our findings reduce the computational demand in the theoretical description of complex system-bath setups and pave the way for further studies of counterintuitive Markovian interactions.
翻訳日:2024-02-27 15:25:00 公開日:2024-02-25
# stochca: クロスアテンションを伴う事前学習モデル活用のための新しいアプローチ

StochCA: A Novel Approach for Exploiting Pretrained Models with Cross-Attention ( http://arxiv.org/abs/2402.16092v1 )

ライセンス: Link先を確認
Seungwon Seo, Suho Lee, Sangheum Hwang(参考訳) 大規模事前訓練モデルを活用することは、様々な目標タスクの性能を高めるためのよく知られた戦略である。 典型的には、ターゲットタスクの訓練済みモデルを微調整することで達成される。 しかし、na\ "{\i}ve fine-tuningは事前訓練されたモデルに埋め込まれた知識を完全に活用できない。 本研究では,トランスフォーマーアーキテクチャに特有な,確率的クロスアテンション(StochCA)と呼ばれる新しい微調整手法を提案する。 この方法はトランスフォーマーの自己保持機構を変更し、微調整中に事前学習したモデルからの知識を選択的に活用する。 具体的には、各ブロックにおいて、自己アテンションの代わりに、事前学習されたモデルの対応するブロックからキーと値を抽出する事前定義された確率に従って確率的にクロスアテンションを行う。 これにより、ターゲットモデルのクエリとチャネル混合多層パーセプトロン層を微調整してタスクをターゲットにし、事前訓練されたモデルのリッチ表現を効果的に活用する方法を学ぶ。 stochcaの有効性を検証するために,事前学習モデルの活用が重要であるトランスファー学習とドメイン一般化の領域におけるベンチマーク実験を行った。 両領域の最先端アプローチに対するStochCAの優位性について検討した。 さらに、stochcaが既存のアプローチ、すなわちパフォーマンス向上のためにそれらと組み合わせられることを実証する。 私たちのコードはhttps://github.com/daintlab/stochastic_cross_attentionで利用可能です。

Utilizing large-scale pretrained models is a well-known strategy to enhance performance on various target tasks. It is typically achieved through fine-tuning pretrained models on target tasks. However, na\"{\i}ve fine-tuning may not fully leverage knowledge embedded in pretrained models. In this study, we introduce a novel fine-tuning method, called stochastic cross-attention (StochCA), specific to Transformer architectures. This method modifies the Transformer's self-attention mechanism to selectively utilize knowledge from pretrained models during fine-tuning. Specifically, in each block, instead of self-attention, cross-attention is performed stochastically according to the predefined probability, where keys and values are extracted from the corresponding block of a pretrained model. By doing so, queries and channel-mixing multi-layer perceptron layers of a target model are fine-tuned to target tasks to learn how to effectively exploit rich representations of pretrained models. To verify the effectiveness of StochCA, extensive experiments are conducted on benchmarks in the areas of transfer learning and domain generalization, where the exploitation of pretrained models is critical. Our experimental results show the superiority of StochCA over state-of-the-art approaches in both areas. Furthermore, we demonstrate that StochCA is complementary to existing approaches, i.e., it can be combined with them to further improve performance. Our code is available at https://github.com/daintlab/stochastic_cross_attention
翻訳日:2024-02-27 15:24:43 公開日:2024-02-25
# 個人化フェデレーション学習パラメータ選択のためのベイズニューラルネットワーク

Bayesian Neural Network For Personalized Federated Learning Parameter Selection ( http://arxiv.org/abs/2402.16091v1 )

ライセンス: Link先を確認
Mengen Luo, Ercan Engin Kuruoglu(参考訳) 異種データの存在下でのフェデレーション学習の業績は、この分野で最も急進的な問題の一つである。 パーソナライズド・フェデレーション(Personalized Federated Learning)は、すべてのクライアントが同じモデルを採用する従来のパラダイムから脱却する。 そのようなアプローチの1つは、ニューラルネットワークの特定の層をパーソナライズすることである。 しかし、事前の努力は信頼できる根拠を提供しておらず、完全に異なる、矛盾するパーソナライズされた層を選択する者もいる。 本研究では,従来のレイヤレベルのパーソナライズよりも,要素レベルでパーソナライズを提案することにより,さらに一歩前進する。 パーソナライズされたパラメータを選択するために、ベイズ型ニューラルネットワークを導入し、パーソナライズされたパラメータを選択するための不確実性に依存します。 最後に,提案手法が既存のベースラインより優れていることを示すとともに,実世界のデータセット上でのアルゴリズムの有効性を検証する。

Federated learning's poor performance in the presence of heterogeneous data remains one of the most pressing issues in the field. Personalized federated learning departs from the conventional paradigm in which all clients employ the same model, instead striving to discover an individualized model for each client to address the heterogeneity in the data. One of such approach involves personalizing specific layers of neural networks. However, prior endeavors have not provided a dependable rationale, and some have selected personalized layers that are entirely distinct and conflicting. In this work, we take a step further by proposing personalization at the elemental level, rather than the traditional layer-level personalization. To select personalized parameters, we introduce Bayesian neural networks and rely on the uncertainty they offer to guide our selection of personalized parameters. Finally, we validate our algorithm's efficacy on several real-world datasets, demonstrating that our proposed approach outperforms existing baselines.
翻訳日:2024-02-27 15:24:04 公開日:2024-02-25
# ソースレス非教師付きドメイン適応におけるキーデザイン選択:深い経験的分析

Key Design Choices in Source-Free Unsupervised Domain Adaptation: An In-depth Empirical Analysis ( http://arxiv.org/abs/2402.16090v1 )

ライセンス: Link先を確認
Andrea Maracani, Raffaello Camoriano, Elisa Maiettini, Davide Talon, Lorenzo Rosasco and Lorenzo Natale(参考訳) 本研究では、SF-UDA法における複数の設計要素間の複雑な関係を厳密に理解することを目的とした、画像分類におけるソースフリーなドメイン適応(SF-UDA)のための包括的なベンチマークフレームワークを提供する。 この研究では、データセット間の一貫性、特定のハイパーパラメータに対する感度、バックボーンアーキテクチャの異なるファミリー間の適用性など、さまざまなSF-UDAテクニックを実証的に検討している。 さらに、トレーニング済みのデータセットと戦略を徹底的に評価し、特に教師付きおよび自己監督型の手法と、ソースドメインに対する微調整の影響に焦点を当てている。 我々の分析は、既存のベンチマークプラクティスのギャップを強調し、SF-UDA研究をより効果的で一般的なアプローチに導く。 バックボーンアーキテクチャとSF-UDAパフォーマンスに対する事前トレーニングデータセットの選択の重要性を強調し、重要なリファレンスとして機能し、重要な洞察を提供する。 最後に、実験フレームワークのソースコードをリリースします。 これにより、SF-UDA法の構築、訓練、試験が容易となり、体系的な大規模実験分析を可能にし、この分野におけるさらなる研究活動を支援する。

This study provides a comprehensive benchmark framework for Source-Free Unsupervised Domain Adaptation (SF-UDA) in image classification, aiming to achieve a rigorous empirical understanding of the complex relationships between multiple key design factors in SF-UDA methods. The study empirically examines a diverse set of SF-UDA techniques, assessing their consistency across datasets, sensitivity to specific hyperparameters, and applicability across different families of backbone architectures. Moreover, it exhaustively evaluates pre-training datasets and strategies, particularly focusing on both supervised and self-supervised methods, as well as the impact of fine-tuning on the source domain. Our analysis also highlights gaps in existing benchmark practices, guiding SF-UDA research towards more effective and general approaches. It emphasizes the importance of backbone architecture and pre-training dataset selection on SF-UDA performance, serving as an essential reference and providing key insights. Lastly, we release the source code of our experimental framework. This facilitates the construction, training, and testing of SF-UDA methods, enabling systematic large-scale experimental analysis and supporting further research efforts in this field.
翻訳日:2024-02-27 15:23:35 公開日:2024-02-25
# 視覚位置認識のための深部ホモグラフィ推定

Deep Homography Estimation for Visual Place Recognition ( http://arxiv.org/abs/2402.16086v1 )

ライセンス: Link先を確認
Feng Lu, Shuting Dong, Lijun Zhang, Bingxi Liu, Xiangyuan Lan, Dongmei Jiang, Chun Yuan(参考訳) 視覚的位置認識(VPR)は、ロボットのローカライゼーションや拡張現実など、多くのアプリケーションにとって基本的なタスクである。 近年,精度と効率のトレードオフにより,階層型VPR手法が注目されている。 彼らはまず、まずグローバルな特徴を使って候補画像を取得し、次に一致した局所的な特徴の空間的一貫性を検証する。 しかし、後者は通常、時間消費かつ微分不能なホモグラフィに適合するランサックアルゴリズムに依存している。 これにより、グローバルな特徴抽出のみでネットワークをトレーニングするための既存の手法が妥協される。 本稿では,背骨ネットワークから抽出された高密度特徴写像を入力とし,高速かつ学習可能な幾何的検証に適合するトランスフォーマーに基づく深層ホモグラフィ推定(DHE)ネットワークを提案する。 さらに,新たなホモグラフィラベルを使わずにDHEネットワークをトレーニングするための不整合損失の再投影誤差を設計し,ローカルマッチングに適した特徴を抽出するためにバックボーンネットワークと共同でトレーニングすることもできる。 ベンチマークデータセットに関する広範囲な実験により,本手法がいくつかの最先端手法に勝ることを示した。 また、RANSACを用いた主流階層型VPR法よりも1桁以上高速である。 コードはhttps://github.com/Lu-Feng/DHE-VPRで公開されている。

Visual place recognition (VPR) is a fundamental task for many applications such as robot localization and augmented reality. Recently, the hierarchical VPR methods have received considerable attention due to the trade-off between accuracy and efficiency. They usually first use global features to retrieve the candidate images, then verify the spatial consistency of matched local features for re-ranking. However, the latter typically relies on the RANSAC algorithm for fitting homography, which is time-consuming and non-differentiable. This makes existing methods compromise to train the network only in global feature extraction. Here, we propose a transformer-based deep homography estimation (DHE) network that takes the dense feature map extracted by a backbone network as input and fits homography for fast and learnable geometric verification. Moreover, we design a re-projection error of inliers loss to train the DHE network without additional homography labels, which can also be jointly trained with the backbone network to help it extract the features that are more suitable for local matching. Extensive experiments on benchmark datasets show that our method can outperform several state-of-the-art methods. And it is more than one order of magnitude faster than the mainstream hierarchical VPR methods using RANSAC. The code is released at https://github.com/Lu-Feng/DHE-VPR.
翻訳日:2024-02-27 15:23:01 公開日:2024-02-25
# 時空間表現を超えた時空間グラフのフーリエ変換

Beyond Spatio-Temporal Representations: Evolving Fourier Transform for Temporal Graphs ( http://arxiv.org/abs/2402.16078v1 )

ライセンス: Link先を確認
Anson Bastos, Kuldeep Singh, Abhishek Nadgeri, Manish Singh, Toyotaro Suzumura(参考訳) Evolving Graph Fourier Transform (EFT) は、時間グラフ上の進化的表現をキャプチャする最初の可逆スペクトル変換である。 我々は,進化するグラフスペクトルを捉える既存の手法の不十分さをモチベーションとし,グラフ頂点領域の時間的側面による計算コストも高く評価した。 この問題を,連続時間動的グラフのラプラシアンに対する最適化と考える。 さらに,変換過程を分解する擬似スペクトル緩和法を提案し,高い計算効率を実現する。 EFT法は、進化するグラフの構造的および位置的特性を積極的にキャプチャし、進化するグラフの下流タスクに有効である。 したがって、参照実装として、進化するグラフスペクトルをキャプチャするためのETTで誘導される単純なニューラルモデルを開発する。 我々は,多数の大規模および標準時相グラフベンチマークに関する理論的知見を実証的に検証し,我々のモデルが最先端の性能を達成することを示す。

We present the Evolving Graph Fourier Transform (EFT), the first invertible spectral transform that captures evolving representations on temporal graphs. We motivate our work by the inadequacy of existing methods for capturing the evolving graph spectra, which are also computationally expensive due to the temporal aspect along with the graph vertex domain. We view the problem as an optimization over the Laplacian of the continuous time dynamic graph. Additionally, we propose pseudo-spectrum relaxations that decompose the transformation process, making it highly computationally efficient. The EFT method adeptly captures the evolving graph's structural and positional properties, making it effective for downstream tasks on evolving graphs. Hence, as a reference implementation, we develop a simple neural model induced with EFT for capturing evolving graph spectra. We empirically validate our theoretical findings on a number of large-scale and standard temporal graph benchmarks and demonstrate that our model achieves state-of-the-art performance.
翻訳日:2024-02-27 15:22:25 公開日:2024-02-25
# 等変フレームと連続正準化の不可能性

Equivariant Frames and the Impossibility of Continuous Canonicalization ( http://arxiv.org/abs/2402.16077v1 )

ライセンス: Link先を確認
Nadav Dym and Hannah Lawrence and Jonathan W. Siegel(参考訳) 正準化(英: Canonicalization)は、等式を強制するアーキテクチャ非依存の手法であり、最近、同変アーキテクチャの軽量で柔軟な代替品として、フレーム・アラグリングのような一般化が注目されている。 近年の研究は、群要素に対する重み付け分布を学ぶ確率的フレームの使用に実証的な利点を見出した。 本研究は、この現象の強い理論的正当化を与える: 一般に使用される群に対して、平均される関数の連続性を保存するフレームの効率的な計算可能な選択は存在しない。 言い換えると、非重み付きフレーム平均化は滑らかで非対称な関数を不連続で対称な関数に変えることができる。 この基本的なロバスト性問題に対処するため、我々は、連続性を確実に保ち、点クラウド上の$SO(2)$, $SO(3)$, $S_n$の作用に対して効率的で連続的な重み付きフレームを構築することによって、それらの有用性を正式に定義し、構築する。

Canonicalization provides an architecture-agnostic method for enforcing equivariance, with generalizations such as frame-averaging recently gaining prominence as a lightweight and flexible alternative to equivariant architectures. Recent works have found an empirical benefit to using probabilistic frames instead, which learn weighted distributions over group elements. In this work, we provide strong theoretical justification for this phenomenon: for commonly-used groups, there is no efficiently computable choice of frame that preserves continuity of the function being averaged. In other words, unweighted frame-averaging can turn a smooth, non-symmetric function into a discontinuous, symmetric function. To address this fundamental robustness problem, we formally define and construct \emph{weighted} frames, which provably preserve continuity, and demonstrate their utility by constructing efficient and continuous weighted frames for the actions of $SO(2)$, $SO(3)$, and $S_n$ on point clouds.
翻訳日:2024-02-27 15:21:46 公開日:2024-02-25
# インターポーラント型政策拡散による行動抑制

Behavioral Refinement via Interpolant-based Policy Diffusion ( http://arxiv.org/abs/2402.16075v1 )

ライセンス: Link先を確認
Kaiqi Chen, Eugene Lim, Kelvin Lin, Yiyang Chen and Harold Soh(参考訳) 模倣学習は、デモから学習することで行動の模倣を人工エージェントに与える。 近年,高次元およびマルチモーダル分布をモデル化できる拡散モデルは,模倣学習タスクにおいて印象的な性能を示している。 これらのモデルは、標準ガウスノイズから作用(あるいは状態)を拡散することでポリシーを形成することを学ぶ。 しかし、学習対象のポリシーはガウシアンと大きく異なり、このミスマッチは(推論速度を改善するために)少数の拡散ステップを使用する場合や、限られたデータの下では性能が低下する可能性がある。 この研究の鍵となる考え方は、ガウス的よりも情報的な情報源から始めることで、拡散法が上記の制限を克服できるということである。 提案手法は,情報ソースポリシーの利点を示す理論的結果,新しい方法,実証的な知見の両方に寄与する。 本手法は, 確率的補間フレームワークを用いて任意の方針を橋渡しし, 模倣学習への柔軟なアプローチを可能にする。 これは、標準ガウスがまだ適用可能であるという事前の作業を一般化するが、他のソースポリシーが利用可能であれば利用できる。 試行錯誤試験において,BRIDGERは最先端の拡散ポリシーより優れており,BRIDGERを適用する際の設計上の考慮事項についてさらなる分析を行う。

Imitation learning empowers artificial agents to mimic behavior by learning from demonstrations. Recently, diffusion models, which have the ability to model high-dimensional and multimodal distributions, have shown impressive performance on imitation learning tasks. These models learn to shape a policy by diffusing actions (or states) from standard Gaussian noise. However, the target policy to be learned is often significantly different from Gaussian and this mismatch can result in poor performance when using a small number of diffusion steps (to improve inference speed) and under limited data. The key idea in this work is that initiating from a more informative source than Gaussian enables diffusion methods to overcome the above limitations. We contribute both theoretical results, a new method, and empirical findings that show the benefits of using an informative source policy. Our method, which we call BRIDGER, leverages the stochastic interpolants framework to bridge arbitrary policies, thus enabling a flexible approach towards imitation learning. It generalizes prior work in that standard Gaussians can still be applied, but other source policies can be used if available. In experiments on challenging benchmarks, BRIDGER outperforms state-of-the-art diffusion policies and we provide further analysis on design considerations when applying BRIDGER.
翻訳日:2024-02-27 15:21:14 公開日:2024-02-25
# Pfeed: 埋め込み類似性を利用したリアルタイムに近いパーソナライズフィードの生成

Pfeed: Generating near real-time personalized feeds using precomputed embedding similarities ( http://arxiv.org/abs/2402.16073v1 )

ライセンス: Link先を確認
Binyam Gebre, Karoliina Ranta, Stef van den Elzen, Ernst Kuiper, Thijs Baars, Tom Heskes(参考訳) パーソナライズされたレコメンデーションシステムでは、顧客のアクションやアイテムをエンコードするために埋め込みがよく使われ、近くの検索を用いて埋め込み空間で検索が行われる。 しかし、このアプローチは2つの課題をもたらす可能性がある。 1) ユーザ埋め込みは、取得した興味の多様性を制限でき、かつ、 2) 最新の状態を維持するためには,高価なリアルタイムインフラストラクチャが必要となる。 本稿では,これらの課題を実践的,産業的に克服する手法を提案する。 この方法は、顧客のプロファイルを動的に更新し、2分ごとにフィードを構成する。 オランダとベルギーで最大規模のeコマースプラットフォームであるBolで、プロモーションアイテムをパーソナライズするために、この方法を試行した。 この方法で顧客のエンゲージメントとエクスペリエンスが向上し、コンバージョンが4.9%向上した。

In personalized recommender systems, embeddings are often used to encode customer actions and items, and retrieval is then performed in the embedding space using approximate nearest neighbor search. However, this approach can lead to two challenges: 1) user embeddings can restrict the diversity of interests captured and 2) the need to keep them up-to-date requires an expensive, real-time infrastructure. In this paper, we propose a method that overcomes these challenges in a practical, industrial setting. The method dynamically updates customer profiles and composes a feed every two minutes, employing precomputed embeddings and their respective similarities. We tested and deployed this method to personalise promotional items at Bol, one of the largest e-commerce platforms of the Netherlands and Belgium. The method enhanced customer engagement and experience, leading to a significant 4.9% uplift in conversions.
翻訳日:2024-02-27 15:20:53 公開日:2024-02-25
# 非整数多重論理を用いた3vプログラマブルジョセフソン接合アレイの実証

Demonstration of 3 V Programmable Josephson Junction Arrays Using Non-Integer-Multiple Logic ( http://arxiv.org/abs/2402.16072v1 )

ライセンス: Link先を確認
Wenhui Cao, Erkun Yang, Jinjin Li, Huan Qiao, Yuan Zhong, Qing Zhong, Da Xu, Xueshen Wang, Xiaolong Xu, Shijian Wang and Jian Chen(参考訳) 本稿では、プログラマブルなジョセフソン電圧標準に使用できる整数表現のための新しい種類のプログラマブル論理を実証する。 ほとんどのビット内のジャンクションの数を、通常のバイナリ論理や三元論理とは異なる可変整数値にすることができる。 したがって、超伝導短絡によるジャンクションの欠如は、この論理の下で許容される。 この論理は三元論理とほとんど同じセグメンテーション効率を持つこともできる。 この論理を用いた列の完全性は, 数学における再帰法によって証明される。 その後、証明されたプロセスに従って整数表現のための新しいアルゴリズムを示し、各ビットに対する耐故障ジャンクションの数の解析を行う。 第1および第2のビットはジャンクションの欠如に寛容ではないが、これら以外のビットは1から数百のジャンクションの欠落を許容する。 列のビット間の非固定多重のため、この論理は非整数多重論理(non-integer-multiple logic)と呼ばれる。 最後に、この論理を用いた3vプログラマブルジョセフソン接合アレイの設計と作製について述べ、特性パラメータの測定と解析について述べる。

This article demonstrates a new kind of programmable logic for the representation of an integer that can be used for the programmable Josephson voltage standard. It can enable the numbers of junctions in most bits to be variable integer values, which is different from normal binary logic or ternary logic. Consequently, missing junctions due to superconducting short circuits can be tolerated under this logic. This logic can also have nearly the same segmentation efficiency as ternary logic. The completeness of the sequences using this logic is proven by the recursive method in mathematics in this paper. After that, a new algorithm for the representation of integers is presented according to the proven process, and an analysis of the number of fault-tolerant junctions for each bit is provided. Although the first and second bits are not tolerant to missing junctions, bits beyond these can tolerate one to hundreds of missing junctions. Due to the non-fixed multiples between the bits of the sequence, this logic is called non-integer-multiple logic. Finally, the design and fabrication of a 3 V programmable Josephson junction array using this logic are described, and the measurements and analysis of the characteristic parameters are presented.
翻訳日:2024-02-27 15:20:37 公開日:2024-02-25
# 合意学習:新しい分散アンサンブル学習パラダイム

Consensus learning: A novel decentralised ensemble learning paradigm ( http://arxiv.org/abs/2402.16157v1 )

ライセンス: Link先を確認
Horia Magureanu and Na\"iri Usher(参考訳) 近年の大規模な機械学習モデルの普及は、効率性とスケーラビリティのための分散コンピューティングの必要性を強調している。 この研究は、従来のアンサンブルメソッドとピアツーピアシステムにデプロイされたコンセンサスプロトコルを組み合わせた、新しい分散機械学習パラダイム -- \emph{consensus learning}を導入している。 第一に、参加者はモデルを開発し、新しいデータ入力の予測を提出する。第二に、個々の予測は、コンセンサスプロトコルによって制御される通信フェーズの入力として使用される。 合意学習は、ユーザデータのプライバシを保証すると同時に、基盤となるコンセンサスメカニズムからビザンツ攻撃に対する安全対策を継承する。 本稿では,特定のコンセンサスプロトコルの詳細な理論解析を行い,コンセンサス学習アンサンブルの性能を一元化アンサンブル学習アルゴリズムと比較する。 この議論は、ビザンチン参加者に対するアルゴリズムの堅牢性を記述する様々な数値シミュレーションによって補われている。

The widespread adoption of large-scale machine learning models in recent years highlights the need for distributed computing for efficiency and scalability. This work introduces a novel distributed machine learning paradigm -- \emph{consensus learning} -- which combines classical ensemble methods with consensus protocols deployed in peer-to-peer systems. These algorithms consist of two phases: first, participants develop their models and submit predictions for any new data inputs; second, the individual predictions are used as inputs for a communication phase, which is governed by a consensus protocol. Consensus learning ensures user data privacy, while also inheriting the safety measures against Byzantine attacks from the underlying consensus mechanism. We provide a detailed theoretical analysis for a particular consensus protocol and compare the performance of the consensus learning ensemble with centralised ensemble learning algorithms. The discussion is supplemented by various numerical simulations, which describe the robustness of the algorithms against Byzantine participants.
翻訳日:2024-02-27 15:14:49 公開日:2024-02-25
# ChatMusician: LLMによる音楽の理解と生成

ChatMusician: Understanding and Generating Music Intrinsically with LLM ( http://arxiv.org/abs/2402.16153v1 )

ライセンス: Link先を確認
Ruibin Yuan, Hanfeng Lin, Yi Wang, Zeyue Tian, Shangda Wu, Tianhao Shen, Ge Zhang, Yuhang Wu, Cong Liu, Ziya Zhou, Ziyang Ma, Liumeng Xue, Ziyu Wang, Qin Liu, Tianyu Zheng, Yizhi Li, Yinghao Ma, Yiming Liang, Xiaowei Chi, Ruibo Liu, Zili Wang, Pengfei Li, Jingcheng Wu, Chenghua Lin, Qifeng Liu, Tao Jiang, Wenhao Huang, Wenhu Chen, Emmanouil Benetos, Jie Fu, Gus Xia, Roger Dannenberg, Wei Xue, Shiyin Kang, Yike Guo(参考訳) LLM(Large Language Models)はテキスト生成において印象的な能力を示すが、人間の創造的言語である音楽にはまだその能力を一般化していない。 内在的な音楽能力を統合するオープンソースのLLMであるChatMusicianを紹介する。 テキスト互換の音楽表現、ABC表記に基づくLLaMA2の継続事前学習および微調整に基づいており、その音楽は第2言語として扱われる。 ChatMusicianは、外部のマルチモーダルニューラルネットワーク構造やトークンーザを使わずに、純粋なテキストトークンーザで音楽を理解して生成することができる。 興味深いことに、内転する音楽能力は言語能力に影響を与えず、少し高いmmluスコアを得ることさえある。 本モデルでは,GPT-4ベースラインを超え,テキスト,コード,メロディ,モチーフ,音楽形式などを条件に,十分に構造化されたフル長の楽曲を構成することができる。 大学レベルの音楽理解ベンチマークであるMusicTheoryBenchでは、ChatMusicianがゼロショット設定でLLaMA2とGPT-3.5を上回っています。 我々の研究は、LLMが音楽の優れた圧縮機になり得ることを明らかにしている。 私たちは4bトークンの音楽言語コーポラミュージックパイル、収集したmusictheorybench、コード、モデル、デモをgithubでリリースしています。

While Large Language Models (LLMs) demonstrate impressive capabilities in text generation, we find that their ability has yet to be generalized to music, humanity's creative language. We introduce ChatMusician, an open-source LLM that integrates intrinsic musical abilities. It is based on continual pre-training and finetuning LLaMA2 on a text-compatible music representation, ABC notation, and the music is treated as a second language. ChatMusician can understand and generate music with a pure text tokenizer without any external multi-modal neural structures or tokenizers. Interestingly, endowing musical abilities does not harm language abilities, even achieving a slightly higher MMLU score. Our model is capable of composing well-structured, full-length music, conditioned on texts, chords, melodies, motifs, musical forms, etc, surpassing GPT-4 baseline. On our meticulously curated college-level music understanding benchmark, MusicTheoryBench, ChatMusician surpasses LLaMA2 and GPT-3.5 on zero-shot setting by a noticeable margin. Our work reveals that LLMs can be an excellent compressor for music, but there remains significant territory to be conquered. We release our 4B token music-language corpora MusicPile, the collected MusicTheoryBench, code, model and demo in GitHub.
翻訳日:2024-02-27 15:14:34 公開日:2024-02-25
# 効率的な量子ハイブリッド拡散モデルに向けて

Towards Efficient Quantum Hybrid Diffusion Models ( http://arxiv.org/abs/2402.16147v1 )

ライセンス: Link先を確認
Francesca De Falco, Andrea Ceschini, Alessandro Sebastianelli, Bertrand Le Saux, Massimo Panella(参考訳) 本稿では,resnet と attention layer を用いた古典的 u-net を用いた量子ハイブリッド拡散モデルの設計手法を提案する。 具体的には、量子コンピューティングの優れた一般化と古典的ネットワークのモジュラリティを組み合わせた2つの異なるハイブリダイゼーションスキームを提案する。 ResNet畳み込み層は、徐々に変分回路に置き換えられ、量子ResNetブロックを生成する。 第2のアーキテクチャでは,特徴抽出プロセスにおいて高い感度を持つため,ハイブリダイゼーションをエンコーダの中間レベルまで拡張する。 量子層の統合から生じる潜在的な利点を詳細に分析するために、量子ハイブリッド拡散モデルで生成された画像と古典的モデルで生成された画像を比較し、いくつかの定量的指標を用いて評価する。 これらの結果は、一般的に高品質な画像を合成し、より高速に収束するため、ハイブリッド量子拡散モデルを使用することの利点を示す。 さらに, 頂点がハイブリッド化される程度に依存して, 従来のパラメータよりも少ないパラメータで訓練できるという利点も示している。

In this paper, we propose a new methodology to design quantum hybrid diffusion models, derived from classical U-Nets with ResNet and Attention layers. Specifically, we propose two possible different hybridization schemes combining quantum computing's superior generalization with classical networks' modularity. In the first one, we acted at the vertex: ResNet convolutional layers are gradually replaced with variational circuits to create Quantum ResNet blocks. In the second proposed architecture, we extend the hybridization to the intermediate level of the encoder, due to its higher sensitivity in the feature extraction process. In order to conduct an in-depth analysis of the potential advantages stemming from the integration of quantum layers, images generated by quantum hybrid diffusion models are compared to those generated by classical models, and evaluated in terms of several quantitative metrics. The results demonstrate an advantage in using a hybrid quantum diffusion models, as they generally synthesize better-quality images and converges faster. Moreover, they show the additional advantage of having a lower number of parameters to train compared to the classical one, with a reduction that depends on the extent to which the vertex is hybridized.
翻訳日:2024-02-27 15:14:11 公開日:2024-02-25
# テキストから変換へ:大規模言語モデルの妥当性に関する総合的なレビュー

From Text to Transformation: A Comprehensive Review of Large Language Models' Versatility ( http://arxiv.org/abs/2402.16142v1 )

ライセンス: Link先を確認
Pravneet Kaur, Gautam Siddharth Kashyap, Ankit Kumar, Md Tabrez Nafis, Sandeep Kumar and Vikrant Shokeen(参考訳) この画期的な研究は、GPT(Generative Pre-Trained Transformer)やBERT(Bidirectional Encoder Representations from Transformers)といった大規模言語モデル(LLMs)の拡大を、技術、金融、医療、教育など、さまざまな分野にわたって探求している。 自然言語処理(nlp)の確立した実績にもかかわらず、これらのllmは、フィットネス、総合的幸福、都市計画、気候モデリング、災害管理などの領域への影響について体系的には調査されていない。 本報告では, 多様な領域におけるLLMの広大かつ広大な利用範囲の包括的分析を行うとともに, LLMの可能性をまだ活用していない研究のギャップと領域を認識する。 この研究は、llmがフィットネスやウェルビーイング、都市計画、気候モデリング、災害対応といった分野において、その分野における将来の研究や応用を刺激する、革新的な方法を明らかにするものだ。

This groundbreaking study explores the expanse of Large Language Models (LLMs), such as Generative Pre-Trained Transformer (GPT) and Bidirectional Encoder Representations from Transformers (BERT) across varied domains ranging from technology, finance, healthcare to education. Despite their established prowess in Natural Language Processing (NLP), these LLMs have not been systematically examined for their impact on domains such as fitness, and holistic well-being, urban planning, climate modelling as well as disaster management. This review paper, in addition to furnishing a comprehensive analysis of the vast expanse and extent of LLMs' utility in diverse domains, recognizes the research gaps and realms where the potential of LLMs is yet to be harnessed. This study uncovers innovative ways in which LLMs can leave a mark in the fields like fitness and wellbeing, urban planning, climate modelling and disaster response which could inspire future researches and applications in the said avenues.
翻訳日:2024-02-27 15:13:53 公開日:2024-02-25
# PeriodicLoRA: LoRA最適化における低ランクボツネックの破壊

PeriodicLoRA: Breaking the Low-Rank Bottleneck in LoRA Optimization ( http://arxiv.org/abs/2402.16141v1 )

ライセンス: Link先を確認
Xiangdi Meng, Damai Dai, Weiyao Luo, Zhe Yang, Shaoxiang Wu, Xiaochen Wang, Peiyi Wang, Qingxiu Dong, Liang Chen, Zhifang Sui(参考訳) 改良された微調整は、下流タスクに大規模言語モデル(LLM)を適用する最も一般的な方法であるが、完全な微調整 LLM には膨大な計算資源が必要である。 近年,パラメータ効率のよい微調整法(PEFT)が広く研究されている。 LoRAは最も広く使われている手法の1つであり、最適化過程は本質的に低次元であると仮定する。 loraの微調整は有効であるが、軽量化は低ランク行列に限られているため、フル微調整に比べて性能の差がある。 LoRA最適化における低ランクボトルネックを解消するために,低ランク更新行列を複数回蓄積し,より高い更新ランクを達成する周期ロラ(PLoRA)を提案する。 PLoRAには複数の訓練段階がある。 各ステージでは、LoRAの重みだけを更新します。 しかし、各ステージの最後には、LoRA重みをバックボーンパラメータにアンロードし、LoRA状態を再起動します。 実験の結果,PLoRAの学習能力はLoRAの学習能力の約1.8倍であるが,メモリ使用量の増加は見られないことがわかった。 さらに,ploraの運動量ベースアンロード戦略を導入し,トレーニングの不安定さを緩和する。

Supervised fine-tuning is the most common method to adapt large language models (LLMs) to downstream tasks, but full fine-tuning LLMs requires massive computational resources. Recently, parameter-efficient fine-tuning (PEFT) methods have been widely studied due to its cost-effectiveness. LoRA is one of the most widely used methods, which assumes that the optimization process is essentially low-dimensional. Although LoRA fine-tuning is effective, there is still a performance gap compared to full fine-tuning, since its weight update is limited to low-rank matrices. In order to break the low-rank bottleneck in LoRA Optimization, we propose PeriodicLoRA (PLoRA), which accumulates low-rank update matrices multiple times to achieve a higher update rank. PLoRA has multiple training stages. During each stage, we still update only the LoRA weights. However, at the end of each stage, we unload the LoRA weights into the backbone parameters and then reinitialize the LoRA states. Experimental results show that PLoRA has stronger learning ability, approximately 1.8 times that of LoRA's learning ability at most, but it does not increase memory usage. Further, we introduce a momentum-based unloading strategy for PLoRA to mitigate the training instability.
翻訳日:2024-02-27 15:13:33 公開日:2024-02-25
# ターミノロジー定義のための生成的人工知能の意味

What Generative Artificial Intelligence Means for Terminological Definitions ( http://arxiv.org/abs/2402.16139v1 )

ライセンス: Link先を確認
Antonio San Mart\'in(参考訳) 本稿では,生成人工知能(GenAI)が用語定義の作成と消費に与える影響について検討する。 ChatGPTのようなGenAIツールは、従来の用語リソースと比べて利点と欠点が混在している。 ChatGPTは、インタラクティブでカスタマイズされた方法でコンテキスト固有の意味を提供するのに優れていますが、正確さで課題に直面します。 認識資源における用語的定義は、その信頼性のために生き残る可能性が高い。 用語学の観点からは、ChatGPTのようなツールは、AIの効率と人間の専門知識をブレンドして、より高速な定義作成を可能にするアプローチとして、後編集の用語学を含むAI支援の用語学を可能にする。

This paper examines the impact of Generative Artificial Intelligence (GenAI) on the creation and consumption of terminological definitions. GenAI tools like ChatGPT present a mix of benefits and drawbacks compared to traditional terminological resources. ChatGPT excels in providing context-specific meanings in an interactive and customized fashion but faces challenges with accuracy. Terminological definitions in recognized resources will likely survive because of their reliability. From the point of view of the terminologist, tools like ChatGPT enable AI-assisted terminography, including post-editing terminography, as an approach blending AI efficiency with human expertise for faster definition creation.
翻訳日:2024-02-27 15:13:11 公開日:2024-02-25
# 蒸発ブラックホール残骸からの古典的加速温度と加速電子ミラー放射

Classical acceleration temperature from evaporated black hole remnants and accelerated electron-mirror radiation ( http://arxiv.org/abs/2402.16137v1 )

ライセンス: Link先を確認
Kuan-Nan Lin, Evgenii Ievlev, Michael R.R. Good and Pisin Chen(参考訳) 我々は、漸近定数速度を持つ加速電子からの放射とそのアナログシグネチャを、残余を持つ蒸発ブラックホールとして検討した。 高速電子は高温であるが、低温のアナログ残基に対応する。

We investigate the radiation from accelerating electrons with asymptotic constant velocity and their analog signatures as evaporating black holes with left-over remnants. We find high-speed electrons, while having a high temperature, correspond to low-temperature analog remnants.
翻訳日:2024-02-27 15:13:00 公開日:2024-02-25
# 流体による量子重力のアナログシミュレーション

Analogue simulations of quantum gravity with fluids ( http://arxiv.org/abs/2402.16136v1 )

ライセンス: Link先を確認
Samuel L. Braunstein, Mir Faizal, Lawrence M. Krauss, Francesco Marino, Naveed A. Shah(参考訳) 最近の制御および操作流体の技術進歩により、重力ブラックホールの音響アナログを実験的に実現できるようになった。 流体は、音波が伝播できる効果的な湾曲時空を提供し、重力ジオメトリや関連する現象のシミュレーションを可能にする。 過去10年間、ホーキング放射とペンローズ超放射の最近の実験で、ブラックホール物理学の異なる側面をテストする様々な流体力学実験が見られた。 本稿では,古典的一般相対性理論を超えたアナログ流体力学系の量子重力効果探索への応用の可能性について論じる。 これには、情報損失パラドックス、プランクスケールの量子補正を伴うブラックホール物理学、創発的重力シナリオ、曲率特異点の正規化などが含まれる。 我々は、古典流体と量子流体を扱う実験家の非重複コミュニティと量子重力理論家との間のギャップを橋渡しし、これらの重要な研究領域における最新の実験的・理論的発展によって可能になった可能性を示すことを目的とする。

The recent technological advances in controlling and manipulating fluids have enabled the experimental realization of acoustic analogues of gravitational black holes. A flowing fluid provides an effective curved spacetime on which sound waves can propagate, allowing the simulation of gravitational geometries and related phenomena. The last decade has witnessed a variety of hydrodynamic experiments testing disparate aspects of black hole physics culminating in the recent experimental evidence of Hawking radiation and Penrose superradiance. In this Perspective, we discuss the potential use of analogue hydrodynamic systems beyond classical general relativity towards the exploration of quantum gravitational effects. These include possible insights into the information-loss paradox, black hole physics with Planck-scale quantum corrections, emergent gravity scenarios and the regularization of curvature singularities. We aim at bridging the gap between the non-overlapping communities of experimentalists working with classical and quantum fluids and quantum-gravity theorists, illustrating the opportunities made possible by the latest experimental and theoretical developments in these important areas of research
翻訳日:2024-02-27 15:12:57 公開日:2024-02-25
# lstprompt: 長期プロンプトによるゼロショット時系列予測のための大規模言語モデル

LSTPrompt: Large Language Models as Zero-Shot Time Series Forecasters by Long-Short-Term Prompting ( http://arxiv.org/abs/2402.16132v1 )

ライセンス: Link先を確認
Haoxin Liu, Zhiyuan Zhao, Jindong Wang, Harshavardhan Kamarthi, B. Aditya Prakash(参考訳) 時系列予測(tsf)は現実世界のシナリオに広く応用されている。 LLM(Prompting off-the-shelf Large Language Models)は、計算効率を保ちながら強力なゼロショットTSF機能を示す。 しかし、既存のプロンプトメソッドは、動的性質とチェーン・オブ・マインドのような最先端のプロンプト戦略との統合の欠如を見越して、言語次の予測としてtsfを単純化している。 そこで本稿では,ゼロショットTSFタスクにおけるLLMの促進手法であるLSTPromptを提案する。 LSTPromptはTSFを短期および長期の予測サブタスクに分解し、それぞれのプロンプトを調整する。 LSTPromptはLSMを誘導し、適応性を高めるために予測メカニズムを定期的に再評価する。 広範囲な評価は,既存のプロンプト法よりもLSTPromptの性能が一貫して向上し,基礎的TSFモデルと比較して競争性が向上した。

Time-series forecasting (TSF) finds broad applications in real-world scenarios. Prompting off-the-shelf Large Language Models (LLMs) demonstrates strong zero-shot TSF capabilities while preserving computational efficiency. However, existing prompting methods oversimplify TSF as language next-token predictions, overlooking its dynamic nature and lack of integration with state-of-the-art prompt strategies such as Chain-of-Thought. Thus, we propose LSTPrompt, a novel approach for prompting LLMs in zero-shot TSF tasks. LSTPrompt decomposes TSF into short-term and long-term forecasting sub-tasks, tailoring prompts to each. LSTPrompt guides LLMs to regularly reassess forecasting mechanisms to enhance adaptability. Extensive evaluations demonstrate consistently better performance of LSTPrompt than existing prompting methods, and competitive results compared to foundation TSF models.
翻訳日:2024-02-27 15:12:42 公開日:2024-02-25
# マルチレベルニューラルグルーガー-カジュアル接続性学習のためのVAEベースのフレームワーク

A VAE-based Framework for Learning Multi-Level Neural Granger-Causal Connectivity ( http://arxiv.org/abs/2402.16131v1 )

ライセンス: Link先を確認
Jiahe Lin, Huitian Lei, George Michailidis(参考訳) グランガー因果関係は、複雑な力学系の構成要素間の鉛-ラグ関係を捉えるために様々なアプリケーション領域で広く用いられており、現存する文献は単一の力学系に焦点をあてている。 マクロ経済学や神経科学の特定の応用において、関連するシステムの集合からデータにアクセスでき、興味のあるモデリングのタスクは、それらに埋め込まれた共有共通構造を抽出し、個々のシステム内での慣用性を特定することである。 本稿では,関連のあるyet-heterogenous dynamical systems の集合において,コンポーネント間のグランジャー・コーパス関係を協調的に学習し,上記のタスクを原理的に処理する,変分オートエンコーダ(vae)ベースのフレームワークを提案する。 提案フレームワークの性能は,複数の合成データ設定に基づいて評価し,個別のシステム学習用に設計された既存手法と比較した。 この方法は、神経生理学的実験からの時系列データを含む実際のデータセット上でさらに説明され、解釈可能な結果を生成する。

Granger causality has been widely used in various application domains to capture lead-lag relationships amongst the components of complex dynamical systems, and the focus in extant literature has been on a single dynamical system. In certain applications in macroeconomics and neuroscience, one has access to data from a collection of related such systems, wherein the modeling task of interest is to extract the shared common structure that is embedded across them, as well as to identify the idiosyncrasies within individual ones. This paper introduces a Variational Autoencoder (VAE) based framework that jointly learns Granger-causal relationships amongst components in a collection of related-yet-heterogeneous dynamical systems, and handles the aforementioned task in a principled way. The performance of the proposed framework is evaluated on several synthetic data settings and benchmarked against existing approaches designed for individual system learning. The method is further illustrated on a real dataset involving time series data from a neurophysiological experiment and produces interpretable results.
翻訳日:2024-02-27 15:12:25 公開日:2024-02-25
# 3次元コンクリート画像におけるき裂検出の統計的方法

A statistical method for crack detection in 3D concrete images ( http://arxiv.org/abs/2402.16126v1 )

ライセンス: Link先を確認
Vitalii Makogin, Duc Nguyen and Evgeny Spodarev(参考訳) 実例では,大規模CT画像のひび割れを効果的に分割することが,材料の構造的整合性を理解する上で重要である。 しかし、古典的な手法と機械学習アルゴリズムは、入力画像のかなりのサイズを扱う場合、しばしば高い計算コストを発生させる。 したがって、クラック領域を事前に検出するためにはロバストなアルゴリズムが必要であり、集中分析と計算オーバーヘッドの低減が可能となる。 提案手法は,CT画像中の亀裂領域を高い確率で識別する合理化手法を提供することにより,この問題に対処する。 興味のある領域を効率的に同定することで,材料構造内の潜在的な異常をより集中的に検討できる。 半合成ct画像と実3次元ct画像の両方を総合的にテストすることにより,計算資源要件を低減しつつ亀裂セグメント化の促進における手法の有効性を検証する。

In practical applications, effectively segmenting cracks in large-scale computed tomography (CT) images holds significant importance for understanding the structural integrity of materials. However, classical methods and Machine Learning algorithms often incur high computational costs when dealing with the substantial size of input images. Hence, a robust algorithm is needed to pre-detect crack regions, enabling focused analysis and reducing computational overhead. The proposed approach addresses this challenge by offering a streamlined method for identifying crack regions in CT images with high probability. By efficiently identifying areas of interest, our algorithm allows for a more focused examination of potential anomalies within the material structure. Through comprehensive testing on both semi-synthetic and real 3D CT images, we validate the efficiency of our approach in enhancing crack segmentation while reducing computational resource requirements.
翻訳日:2024-02-27 15:12:07 公開日:2024-02-25
# 崩壊近くのボース流体中の液体-液相転移

Liquid-liquid transition in a Bose fluid near collapse ( http://arxiv.org/abs/2402.16125v1 )

ライセンス: Link先を確認
Saverio Moroni, Fabio Cinti, Massimo Boninsegni, Giuseppe Pellicane, and Santi Prestipino(参考訳) 量子多体系における新しい創発的振る舞いの発見は、現代の研究の主要な目的である。 本稿では,ルエル不安定性近傍の相転移と相転移に及ぼす影響について検討する。 これを達成するために、量子モンテカルロ法により、短距離でのソフトコア反発を伴う有限次元誘引ポテンシャルの2次元系をシミュレーションし、誘引部と反発部の相対強度をパラメータ $\eta$ で表現する。 もし$\eta$が特性値$\eta_c$を超えると、システムが崩壊すると不安定になるので、熱力学的限界が失われる。 我々は2つの液相間の一階遷移である液体-真空遷移に加えて、$\eta \lesssim \eta_c$ のモデルの相図を調べる。 冷却すると、密度の高い液体は超流動となり、おそらく気液-液体の三重温度を超える。 $\eta$ が $\eta_c$ に近づくにつれて、高密度液体の安定性領域は、量子粒子や古典粒子との分散の振る舞いである高密度にシフトする。 最後に、$\eta$が$\eta_c$より大きい場合、我々のシミュレーションはどんな密度でも低温流体が崩壊する証拠となる。

Discovering novel emergent behavior in quantum many-body systems is a main objective of contemporary research. In this paper, we explore the effects on phases and phase transitions of the proximity to a Ruelle instability. To accomplish this, we study by quantum Monte Carlo simulations a two-dimensional system of finite-ranged attractive potential with soft-core repulsion at short distances, with a parameter $\eta$ describing the relative strength of the attractive versus the repulsive part. If $\eta$ exceeds a characteristic value $\eta_c$, the thermodynamic limit is lost, as the system becomes unstable against collapse. We investigate the phase diagram of the model for $\eta \lesssim \eta_c$, finding -- in addition to a liquid-vapor transition -- a first-order transition between two liquid phases. Upon cooling, the high-density liquid turns superfluid, possibly above the vapor-liquid-liquid triple temperature. As $\eta$ approaches $\eta_c$, the stability region of the high-density liquid is shifted to increasingly higher densities, a behavior at variance with distinguishable quantum or classical particles. Finally, for $\eta$ larger than $\eta_c$ our simulations yield evidence of collapse of the low-temperature fluid for any density; the collapsed system forms a circular cluster whose radius is insensitive to the number of particles.
翻訳日:2024-02-27 15:11:54 公開日:2024-02-25
# AVI-Talking:3次元表情生成のための聴覚教育

AVI-Talking: Learning Audio-Visual Instructions for Expressive 3D Talking Face Generation ( http://arxiv.org/abs/2402.16124v1 )

ライセンス: Link先を確認
Yasheng Sun, Wenqing Chu, Hang Zhou, Kaisiyuan Wang, Hideki Koike(参考訳) 3次元音声駆動型発話表情生成のための正確な唇同期の実現には相当な進歩があるが、話し手の発話状態に合わせて表情詳細合成を表現的に組み込む作業はいまだに困難である。 我々のゴールは、人間の発話によって伝達される固有のスタイル情報を直接活用し、話し言葉の状態と一致した表現力のある話し声を生成することである。 本稿では,表現力のある発話顔生成のための音声-視覚インストラクションシステムであるAVI-Talkingを提案する。 このシステムは,Large Language Models (LLMs) が提供する強靭な文脈推論と幻覚機能を利用して,3次元音声の現実的な合成を指導する。 人間の音声から直接顔の動きを学習する代わりに、LLMが最初に音声情報を解釈し、音声に対応する表情の詳細をシームレスに表現する指示を生成する。 その後、拡散に基づく生成ネットワークがこれらの命令を実行する。 この2段階のプロセスは、LLMの組み込みと組み合わせて、モデルの解釈可能性を高め、ユーザーに指示を理解し、望ましい操作や修正を指定する柔軟性を提供する。 広汎な実験は,表現力のある顔の動きと一貫した感情的状態を持つ鮮明な話し声を生み出す方法の有効性を示した。

While considerable progress has been made in achieving accurate lip synchronization for 3D speech-driven talking face generation, the task of incorporating expressive facial detail synthesis aligned with the speaker's speaking status remains challenging. Our goal is to directly leverage the inherent style information conveyed by human speech for generating an expressive talking face that aligns with the speaking status. In this paper, we propose AVI-Talking, an Audio-Visual Instruction system for expressive Talking face generation. This system harnesses the robust contextual reasoning and hallucination capability offered by Large Language Models (LLMs) to instruct the realistic synthesis of 3D talking faces. Instead of directly learning facial movements from human speech, our two-stage strategy involves the LLMs first comprehending audio information and generating instructions implying expressive facial details seamlessly corresponding to the speech. Subsequently, a diffusion-based generative network executes these instructions. This two-stage process, coupled with the incorporation of LLMs, enhances model interpretability and provides users with flexibility to comprehend instructions and specify desired operations or modifications. Extensive experiments showcase the effectiveness of our approach in producing vivid talking faces with expressive facial movements and consistent emotional status.
翻訳日:2024-02-27 15:11:26 公開日:2024-02-25
# instructionit: 大きな言語モデルのためのインストラクションベースの知識編集

InstructEdit: Instruction-based Knowledge Editing for Large Language Models ( http://arxiv.org/abs/2402.16123v1 )

ライセンス: Link先を確認
Bozhong Tian, Siyuan Cheng, Xiaozhuan Liang, Ningyu Zhang, Yi Hu, Kouying Xue, Yanjie Gou, Xi Chen, Huajun Chen(参考訳) 大規模言語モデルの知識編集は、全体的なパフォーマンスに悪影響を及ぼすことなく、モデルの振る舞いを変える効率的なソリューションを提供することができる。 しかし、現在のアプローチでは、タスク間の汎用性が制限された問題に遭遇し、各タスクに1つの異なるエディタが必要になるため、幅広いアプリケーションを妨げることになる。 そこで我々は,知識編集におけるマルチタスクの一般化問題を解析する第一歩を踏み出した。 具体的には、簡易な命令を用いて、様々なタスク性能へのエディタの適応を容易にする命令ベースの編集技術「deudedit」を開発した。 各llmに統一されたエディタが1つだけあれば、ディストラクションitがエディタのコントロールを改善し、マルチタスク編集設定の信頼性が平均14.86%向上することを実証できる。 さらに、予期せぬタスクを含む実験は、InstructEditが以前の強いベースラインを一貫して上回っていることを示している。 命令ベースの知識編集の基盤となるメカニズムを更に解明するため,より強力なOOD一般化による最適化方向の制御に役立てることができることを示す編集勾配方向の主成分を解析した。 コードとデータセットはhttps://github.com/zjunlp/EasyEditで入手できる。

Knowledge editing for large language models can offer an efficient solution to alter a model's behavior without negatively impacting the overall performance. However, the current approach encounters issues with limited generalizability across tasks, necessitating one distinct editor for each task, which significantly hinders the broader applications. To address this, we take the first step to analyze the multi-task generalization issue in knowledge editing. Specifically, we develop an instruction-based editing technique, termed InstructEdit, which facilitates the editor's adaptation to various task performances simultaneously using simple instructions. With only one unified editor for each LLM, we empirically demonstrate that InstructEdit can improve the editor's control, leading to an average 14.86% increase in Reliability in multi-task editing setting. Furthermore, experiments involving holdout unseen task illustrate that InstructEdit consistently surpass previous strong baselines. To further investigate the underlying mechanisms of instruction-based knowledge editing, we analyze the principal components of the editing gradient directions, which unveils that instructions can help control optimization direction with stronger OOD generalization. Code and datasets will be available in https://github.com/zjunlp/EasyEdit.
翻訳日:2024-02-27 15:11:04 公開日:2024-02-25
# 再パラメータ化モデルにおけるトレーニング後の正確な量子化に向けて

Towards Accurate Post-training Quantization for Reparameterized Models ( http://arxiv.org/abs/2402.16121v1 )

ライセンス: Link先を確認
Luoming Zhang, Yefei He, Wen Fei, Zhenyu Lou, Weijia Wu, YangWei Ying, and Hong Zhou(参考訳) モデル再パラメータ化は、性能を損なうことなく推論速度を改善する手法として広く受け入れられている。 しかし、現在のPTQ(Post-training Quantization)法は、再パラメータ化モデルに適用した場合、大きな精度低下をもたらすことが多い。 これは主に特定のサンプルやチャネルにのみ出現し、量子化パラメータの選択に影響を及ぼすチャネル固有およびサンプル特異的な異常値によって引き起こされる。 この問題に対処するため,我々は,量子化再パラメータモデルの精度を保つ新しいフレームワークである repapq を提案する。 平均正方形誤差(MSE)を測定として用いた従来のフレームワークとは異なり、平均絶対誤差(MAE)を用いて量子化パラメータに対する外れ値の影響を緩和する。 我々のフレームワークは、量子化保護リパラメータ化とAcross-block Calibrationの2つの主要コンポーネントから構成されている。 効果的な校正のために、量子化保護パラメータ化は複数の分岐をアフィン層と単一の畳み込みに結合する。 トレーニング中、アフィン層は収束を加速し、コンボリューションの出力を増幅し、外れ値のサンプルをよりよく適合させる。 さらに、Across-block Calibrationはステージ出力の測定を監視として利用し、MAEが導入した勾配問題に対処し、量子化パラメータとの層間相関を強化する。 総合的な実験は、RepAPQが様々なモデルやタスクで有効であることを示す。 提案手法は,8ビットのPTQで約1\%,6ビットのPTQで約2\%向上し,優れた性能を示した。 コードは \url{https://github.com/ilur98/dlmc-quant} で入手できる。

Model reparameterization is a widely accepted technique for improving inference speed without compromising performance. However, current Post-training Quantization (PTQ) methods often lead to significant accuracy degradation when applied to reparameterized models. This is primarily caused by channel-specific and sample-specific outliers, which appear only at specific samples and channels and impact on the selection of quantization parameters. To address this issue, we propose RepAPQ, a novel framework that preserves the accuracy of quantized reparameterization models. Different from previous frameworks using Mean Squared Error (MSE) as a measurement, we utilize Mean Absolute Error (MAE) to mitigate the influence of outliers on quantization parameters. Our framework comprises two main components: Quantization Protecting Reparameterization and Across-block Calibration. For effective calibration, Quantization Protecting Reparameterization combines multiple branches into a single convolution with an affine layer. During training, the affine layer accelerates convergence and amplifies the output of the convolution to better accommodate samples with outliers. Additionally, Across-block Calibration leverages the measurement of stage output as supervision to address the gradient problem introduced by MAE and enhance the interlayer correlation with quantization parameters. Comprehensive experiments demonstrate the effectiveness of RepAPQ across various models and tasks. Our framework outperforms previous methods by approximately 1\% for 8-bit PTQ and 2\% for 6-bit PTQ, showcasing its superior performance. The code is available at \url{https://github.com/ilur98/DLMC-QUANT}.
翻訳日:2024-02-27 15:10:43 公開日:2024-02-25
# セマンティックスムーシングによる脱獄攻撃に対する大規模言語モデルの構築

Defending Large Language Models against Jailbreak Attacks via Semantic Smoothing ( http://arxiv.org/abs/2402.16192v1 )

ライセンス: Link先を確認
Jiabao Ji, Bairu Hou, Alexander Robey, George J. Pappas, Hamed Hassani, Yang Zhang, Eric Wong, Shiyu Chang(参考訳) 適応型大規模言語モデル(LLM)は、ターゲットのLLMの保護を回避し、それらを騙して不快なコンテンツを生成するジェイルブレイク攻撃に対して脆弱である。 最初の防御はトークンベースの脅威モデルに対する約束を示すが、意味攻撃に対する堅牢性を提供し、堅牢性と名目上のパフォーマンスの間の不利なトレードオフを避ける防御は存在しない。 このニーズを満たすために、与えられた入力プロンプトの複数の意味変換されたコピーの予測を集約するスムーズな防御であるSEMANTICSMOOTHを提案する。 実験の結果,semanticsmooth は gcg, pair, autodan 攻撃に対して最先端の堅牢性を実現し,命令追従や alpacaeval などのベンチマークに追従した命令上で強い名目性能を維持した。 コードはhttps://github.com/UCSB-NLP-Chang/SemanticSmoothで公開されている。

Aligned large language models (LLMs) are vulnerable to jailbreaking attacks, which bypass the safeguards of targeted LLMs and fool them into generating objectionable content. While initial defenses show promise against token-based threat models, there do not exist defenses that provide robustness against semantic attacks and avoid unfavorable trade-offs between robustness and nominal performance. To meet this need, we propose SEMANTICSMOOTH, a smoothing-based defense that aggregates the predictions of multiple semantically transformed copies of a given input prompt. Experimental results demonstrate that SEMANTICSMOOTH achieves state-of-the-art robustness against GCG, PAIR, and AutoDAN attacks while maintaining strong nominal performance on instruction following benchmarks such as InstructionFollowing and AlpacaEval. The codes will be publicly available at https://github.com/UCSB-NLP-Chang/SemanticSmooth.
翻訳日:2024-02-27 15:05:48 公開日:2024-02-25
# ワンステージプロンプト型連続学習

One-stage Prompt-based Continual Learning ( http://arxiv.org/abs/2402.16189v1 )

ライセンス: Link先を確認
Youngeun Kim, Yuhang Li, Priyadarshini Panda(参考訳) プロンプトベースの連続学習(PCL)は、プライバシー侵害やメモリオーバーヘッドの問題を防止しつつ、最先端のパフォーマンスを達成するため、有望な継続的学習ソリューションとしてかなりの注目を集めている。 それにもかかわらず、既存のpclアプローチは、2つのvision transformer (vit)フィードフォワードステージ、ひとつはプロンプトプール内のプロンプトを選択するプロンプトクエリを生成するクエリvit、もうひとつは選択されたプロンプトとイメージトークンの間で情報を混合するbackbone vitである。 そこで本研究では,中間層のトークン埋め込みを直接インプットクエリとして利用することにより,一段階PCLフレームワークを提案する。 この設計により、クエリvitのフィードフォワードステージを追加する必要がなくなり、トレーニングと推論の両方の計算コストが約50%削減され、精度が1%低下する。 さらに,プロンプトクエリとプロンプトプールの関係を規定するクエリプール正規化(qr)損失を導入し,表現力の向上を図る。 QR損失はトレーニング時間にのみ適用されるため、QR損失からの推論時の計算オーバーヘッドは発生しない。 CIFAR-100, ImageNet-R, DomainNet などの公開クラス増分学習ベンチマークでは, QR損失により, 推論中に約50%の計算コスト削減が達成され, 従来の2段階PCL法よりも1.4%向上した。

Prompt-based Continual Learning (PCL) has gained considerable attention as a promising continual learning solution as it achieves state-of-the-art performance while preventing privacy violation and memory overhead issues. Nonetheless, existing PCL approaches face significant computational burdens because of two Vision Transformer (ViT) feed-forward stages; one is for the query ViT that generates a prompt query to select prompts inside a prompt pool; the other one is a backbone ViT that mixes information between selected prompts and image tokens. To address this, we introduce a one-stage PCL framework by directly using the intermediate layer's token embedding as a prompt query. This design removes the need for an additional feed-forward stage for query ViT, resulting in ~50% computational cost reduction for both training and inference with marginal accuracy drop < 1%. We further introduce a Query-Pool Regularization (QR) loss that regulates the relationship between the prompt query and the prompt pool to improve representation power. The QR loss is only applied during training time, so there is no computational overhead at inference from the QR loss. With the QR loss, our approach maintains ~ 50% computational cost reduction during inference as well as outperforms the prior two-stage PCL methods by ~1.4% on public class-incremental continual learning benchmarks including CIFAR-100, ImageNet-R, and DomainNet.
翻訳日:2024-02-27 15:05:27 公開日:2024-02-25
# ARIN: ダンファンケーブ塗装のロバストブラインド塗布における適応的再サンプリングと事例正規化

ARIN: Adaptive Resampling and Instance Normalization for Robust Blind Inpainting of Dunhuang Cave Paintings ( http://arxiv.org/abs/2402.16188v1 )

ライセンス: Link先を確認
Alexander Schmidt, Prathmesh Madhu, Andreas Maier, Vincent Christlein, Ronak Kosti(参考訳) 画像強調アルゴリズムは、イメージ解像度がセンサーサイズによって物理的に制限される実世界のコンピュータビジョンタスクに非常に有用である。 最先端のディープニューラルネットワークは、画像の強化に印象的な結果を示す一方で、現実世界の画像の強化に苦慮することが多い。 本研究では,ダンフアン洞窟の画像のインペインティングという,現実世界の環境に挑戦する。 dunhuangデータセットは壁画で構成されており、その半分は腐食と老化に苦しんでいる。 これらの壁画は、仏像、菩薩像、スポンサー、建築、舞踊、音楽、そして10世紀にわたる異なる芸術家がデザインした装飾模様など、多彩な内容が特徴であり、手作業による修復が困難である。 我々は,SOTA(State-of-the-art)とデブロワーリングネットワークに基づく2つの既存手法(CAR, HINet)を修正した。 これらの劣化した洞窟の絵画を塗りつぶし、強化することができることを示す。 さらに、CARとHINetの新たな組み合わせにより、提案した塗装ネットワーク(ARIN)は外部ノイズ、特にガウスノイズに対して非常に堅牢であることを示す。 そこで本研究では,提案手法と既存のsotaネットワーク,およびdunhuangチャレンジの勝者との定量的・質的比較を行った。 hinet(提案されている方法の1つ)は、新しい最先端の芸術を表現し、dunhuangチャレンジの1位を上回り、ノイズに頑健なarinの組み合わせは1位に匹敵する。 また,Dunhuangの洞窟画像に対する塗布方法の影響を示す定性的な結果も提示した。

Image enhancement algorithms are very useful for real world computer vision tasks where image resolution is often physically limited by the sensor size. While state-of-the-art deep neural networks show impressive results for image enhancement, they often struggle to enhance real-world images. In this work, we tackle a real-world setting: inpainting of images from Dunhuang caves. The Dunhuang dataset consists of murals, half of which suffer from corrosion and aging. These murals feature a range of rich content, such as Buddha statues, bodhisattvas, sponsors, architecture, dance, music, and decorative patterns designed by different artists spanning ten centuries, which makes manual restoration challenging. We modify two different existing methods (CAR, HINet) that are based upon state-of-the-art (SOTA) super resolution and deblurring networks. We show that those can successfully inpaint and enhance these deteriorated cave paintings. We further show that a novel combination of CAR and HINet, resulting in our proposed inpainting network (ARIN), is very robust to external noise, especially Gaussian noise. To this end, we present a quantitative and qualitative comparison of our proposed approach with existing SOTA networks and winners of the Dunhuang challenge. One of the proposed methods HINet) represents the new state of the art and outperforms the 1st place of the Dunhuang Challenge, while our combination ARIN, which is robust to noise, is comparable to the 1st place. We also present and discuss qualitative results showing the impact of our method for inpainting on Dunhuang cave images.
翻訳日:2024-02-27 15:04:59 公開日:2024-02-25
# 強度の爆発によるLLM透かしの攻撃

Attacking LLM Watermarks by Exploiting Their Strengths ( http://arxiv.org/abs/2402.16187v1 )

ライセンス: Link先を確認
Qi Pang, Shengyuan Hu, Wenting Zheng, Virginia Smith(参考訳) 生成モデルの進歩により、AIが生成したテキスト、コード、画像が、多くのアプリケーションで生成したコンテンツのミラーリングを可能にした。 モデル出力に情報を埋め込んでソースを検証する技術であるウォーターマーキングは、そのようなAI生成コンテンツの誤用を軽減するのに有用である。 しかし、既存の透かしは驚くほど攻撃に弱いままである。 特に,品質維持やロバスト性,公開検出apiといった既存のllm透かしシステムで共有される望ましい特性は,これらのシステムを様々な攻撃に対して脆弱にすることができることを示す。 我々は、一般的なウォーターマーク設計の観点で潜在的な攻撃を厳格に研究し、緩和のためのベストプラクティスと防御を提案し、llmウォーターマークの埋め込みと検出のための実用的なガイドラインを策定する。

Advances in generative models have made it possible for AI-generated text, code, and images to mirror human-generated content in many applications. Watermarking, a technique that aims to embed information in the output of a model to verify its source, is useful for mitigating misuse of such AI-generated content. However, existing watermarking schemes remain surprisingly susceptible to attack. In particular, we show that desirable properties shared by existing LLM watermarking systems such as quality preservation, robustness, and public detection APIs can in turn make these systems vulnerable to various attacks. We rigorously study potential attacks in terms of common watermark design choices, and propose best practices and defenses for mitigation -- establishing a set of practical guidelines for embedding and detection of LLM watermarks.
翻訳日:2024-02-27 15:04:31 公開日:2024-02-25
# スパーシティ誘導活性化によるディープニューラルネットワーク初期化

Deep Neural Network Initialization with Sparsity Inducing Activations ( http://arxiv.org/abs/2402.16184v1 )

ライセンス: Link先を確認
Ilan Price, Nicholas Daultry Ball, Samuel C.H. Lam, Adam C. Jones, Jared Tanner(参考訳) トレーニングおよび推論中にスパースアクティベーションを誘導し活用することは、ディープネットワークの計算効率を向上させるための有望な方法であり、ネットワークサイズが成長し、そのアプリケーションがより広まるにつれて、ますます重要になる。 ここでは, 大幅ガウス過程極限を用いて, ランダム初期化時の非線形活性化の挙動を解析し, 隠れ出力のスパーシティを誘導する。 ReLU$\phi(x)=\max(0, x-\tau)$ for $\tau\ge 0$) and soft thresholding$\phi(x)=0$ for $|x|\le\tau$ and $x-\text{sign}(x)\tau$ for $|x|>\tau$である。 この不安定性は、関連するガウス過程の分散写像の形状によって所定のレベルで非線形活性化度をクリップすることで克服されることを示す。 数値実験により、この理論を検証し、提案する大きさのクリップススパース化アクティベーションをトレーニングし、完全な精度を維持しながら分数スパースシティを85\%までテストできることを示した。

Inducing and leveraging sparse activations during training and inference is a promising avenue for improving the computational efficiency of deep networks, which is increasingly important as network sizes continue to grow and their application becomes more widespread. Here we use the large width Gaussian process limit to analyze the behaviour, at random initialization, of nonlinear activations that induce sparsity in the hidden outputs. A previously unreported form of training instability is proven for arguably two of the most natural candidates for hidden layer sparsification; those being a shifted ReLU ($\phi(x)=\max(0, x-\tau)$ for $\tau\ge 0$) and soft thresholding ($\phi(x)=0$ for $|x|\le\tau$ and $x-\text{sign}(x)\tau$ for $|x|>\tau$). We show that this instability is overcome by clipping the nonlinear activation magnitude, at a level prescribed by the shape of the associated Gaussian process variance map. Numerical experiments verify the theory and show that the proposed magnitude clipped sparsifying activations can be trained with training and test fractional sparsity as high as 85\% while retaining close to full accuracy.
翻訳日:2024-02-27 15:04:17 公開日:2024-02-25
# MoodCapture: in-the-Wildスマートフォン画像による抑うつ検出

MoodCapture: Depression Detection Using In-the-Wild Smartphone Images ( http://arxiv.org/abs/2402.16182v1 )

ライセンス: Link先を確認
Subigya Nepal, Arvind Pillai, Weichen Wang, Tess Griffin, Amanda C. Collins, Michael Heinz, Damien Lekkas, Shayan Mirjafari, Matthew Nemesure, George Price, Nicholas C. Jacobson, Andrew T. Campbell(参考訳) moodcaptureは、スマートフォンの前面カメラから自動的に撮影された画像に基づいて、日常生活の中でうつ病を評価する新しいアプローチを提示している。 うつ病と診断されたN=177人の被験者から,90日間,野生で125,000枚以上の写真を収集した。 画像は自然に撮影され、参加者はPHQ-8うつ病調査の質問に答える: 'textit{``I have feel down, depressed, or hopeless'}。 分析では、角度、支配色、位置、物体、照明などの重要な画像属性を調査した。 フェースランドマークを訓練したランダム林では,標本を抑うつあるいは非抑うつと分類でき,生のphq-8スコアを効果的に予測できる。 ポストホック解析は,アブレーション研究,特徴量分析,バイアスアセスメントを通じて,いくつかの知見を提供する。 重要なことは、写真共有に基づく抑うつの検出にMoodCaptureを使用することに関するユーザの懸念を評価し、Wild画像ベースのメンタルヘルスアセスメントツールの将来設計を通知するプライバシーに関する重要な洞察を提供する。

MoodCapture presents a novel approach that assesses depression based on images automatically captured from the front-facing camera of smartphones as people go about their daily lives. We collect over 125,000 photos in the wild from N=177 participants diagnosed with major depressive disorder for 90 days. Images are captured naturalistically while participants respond to the PHQ-8 depression survey question: \textit{``I have felt down, depressed, or hopeless''}. Our analysis explores important image attributes, such as angle, dominant colors, location, objects, and lighting. We show that a random forest trained with face landmarks can classify samples as depressed or non-depressed and predict raw PHQ-8 scores effectively. Our post-hoc analysis provides several insights through an ablation study, feature importance analysis, and bias assessment. Importantly, we evaluate user concerns about using MoodCapture to detect depression based on sharing photos, providing critical insights into privacy concerns that inform the future design of in-the-wild image-based mental health assessment tools.
翻訳日:2024-02-27 15:03:51 公開日:2024-02-25
# LLMはどのようにしてRLをガイドできるか? 価値に基づくアプローチ

How Can LLM Guide RL? A Value-Based Approach ( http://arxiv.org/abs/2402.16181v1 )

ライセンス: Link先を確認
Shenao Zhang, Sirui Zheng, Shuqi Ke, Zhihan Liu, Wanxin Jin, Jianbo Yuan, Yingxiang Yang, Hongxia Yang, Zhaoran Wang(参考訳) 強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。 しかし、RLアルゴリズムは、改善のために有用なフィードバックを集めるために、広範囲な試行錯誤相互作用を必要とする可能性がある。 一方で,近年の大規模言語モデル(llm)の発展は,言語理解と生成において印象的な能力を示しているが,計画作業における探索能力や自己改善能力に乏しく,フィードバックに基づいて自律的に応答を洗練する能力が欠如している。 そこで本稿では, LLM が提案するポリシによって, RL アルゴリズムのサンプル効率が向上することを示す。 具体的には,価値ベースrlの正規化要因としてllmガイダンスを組み込んだlinvitというアルゴリズムを開発し,学習に必要なデータ量を大幅に削減した。 さらに,値関数の構成を単純化し,探索の複雑さを減らすためにサブゴアルを用いる実用的なアルゴリズムスリンビットを提案する。 ALFWorld,InterCode,BlocksWorldの3つのインタラクティブ環境における実験により,本手法が最先端の成功率を達成し,サンプル効率の点で従来のRLおよびLLMアプローチを上回ったことを示す。 私たちのコードはhttps://github.com/agentification/Language-Integrated-VIで利用可能です。

Reinforcement learning (RL) has become the de facto standard practice for sequential decision-making problems by improving future acting policies with feedback. However, RL algorithms may require extensive trial-and-error interactions to collect useful feedback for improvement. On the other hand, recent developments in large language models (LLMs) have showcased impressive capabilities in language understanding and generation, yet they fall short in exploration and self-improvement capabilities for planning tasks, lacking the ability to autonomously refine their responses based on feedback. Therefore, in this paper, we study how the policy prior provided by the LLM can enhance the sample efficiency of RL algorithms. Specifically, we develop an algorithm named LINVIT that incorporates LLM guidance as a regularization factor in value-based RL, leading to significant reductions in the amount of data needed for learning, particularly when the difference between the ideal policy and the LLM-informed policy is small, which suggests that the initial policy is close to optimal, reducing the need for further exploration. Additionally, we present a practical algorithm SLINVIT that simplifies the construction of the value function and employs subgoals to reduce the search complexity. Our experiments across three interactive environments ALFWorld, InterCode, and BlocksWorld demonstrate that our method achieves state-of-the-art success rates and also surpasses previous RL and LLM approaches in terms of sample efficiency. Our code is available at https://github.com/agentification/Language-Integrated-VI.
翻訳日:2024-02-27 15:03:30 公開日:2024-02-25
# ビデオカメラを用いたKnee-Ankle-Foot装用患者のXAI歩行解析

XAI-based gait analysis of patients walking with Knee-Ankle-Foot orthosis using video cameras ( http://arxiv.org/abs/2402.16175v1 )

ライセンス: Link先を確認
Arnav Mishra, Aditi Shetkar, Ganesh M. Bapat, Rajdeep Ojha, Tanmay Tulsidas Verlekar(参考訳) 最近の人工知能とコンピュータビジョンの技術進歩により、携帯電話などの携帯機器の歩行分析が可能になった。 しかし、最先端の視覚ベースのシステムのほとんどは、静止カメラの使用や特定の距離の維持など、患者のビデオを撮影するために多くの制約を課している。 これらの制約は専門的な観察の下では管理可能だが、家庭の設定では問題となる。 ほとんどのビジョンベースのシステムにおけるもうひとつの問題は、その出力であり、一般的に分類ラベルと信頼度値であり、その信頼性は医療専門家によってしばしば問われる。 本稿では,カメラの動きに頑健な歩行解析システムを提案し,その出力について説明する。 この研究は、2種類の膝足関節症(KAFO)、すなわち「ロックされた膝」と「セミフレクション」を装着した被験者のビデオと、説明のためのメタデータと基礎的真実を含むデータセットを利用する。 根拠の真理は、モーションキャプチャーシステムを用いて2つの歩行を区別する7つの特徴の統計的重要性を浮き彫りにしている。 カメラ動作の課題に対処するため,本システムでは,事前処理時の超解像とポーズ推定を行う。 次に、ポーズ推定の骨格出力を用いて、ストライド長、ステップ長、直交および非整形脚の単一サポートの継続、ケイデンス、スピードの7つの特徴を特定する。 これらの特徴は多層パーセプトロンを訓練し、その出力は特徴の分類への貢献を強調して説明される。 ほとんどの最先端システムは、提案したデータセットの動画処理やトレーニングに苦労しているが、我々のシステムは平均94%の精度を実現している。 モデルの説明可能性は根拠の真理を用いて検証され、信頼できるものと見なすことができる。

Recent technological advancements in artificial intelligence and computer vision have enabled gait analysis on portable devices such as cell phones. However, most state-of-the-art vision-based systems still impose numerous constraints for capturing a patient's video, such as using a static camera and maintaining a specific distance from it. While these constraints are manageable under professional observation, they pose challenges in home settings. Another issue with most vision-based systems is their output, typically a classification label and confidence value, whose reliability is often questioned by medical professionals. This paper addresses these challenges by presenting a novel system for gait analysis robust to camera movements and providing explanations for its output. The study utilizes a dataset comprising videos of subjects wearing two types of Knee Ankle Foot Orthosis (KAFO), namely "Locked Knee" and "Semi-flexion," for mobility, along with metadata and ground truth for explanations. The ground truth highlights the statistical significance of seven features captured using motion capture systems to differentiate between the two gaits. To address camera movement challenges, the proposed system employs super-resolution and pose estimation during pre-processing. It then identifies the seven features - Stride Length, Step Length and Duration of single support of orthotic and non-orthotic leg, Cadence, and Speed - using the skeletal output of pose estimation. These features train a multi-layer perceptron, with its output explained by highlighting the features' contribution to classification. While most state-of-the-art systems struggle with processing the video or training on the proposed dataset, our system achieves an average accuracy of 94%. The model's explainability is validated using ground truth and can be considered reliable.
翻訳日:2024-02-27 15:03:00 公開日:2024-02-25
# GenNBV:アクティブ3D再構築のための汎用的な次世代ビューポリシー

GenNBV: Generalizable Next-Best-View Policy for Active 3D Reconstruction ( http://arxiv.org/abs/2402.16174v1 )

ライセンス: Link先を確認
Xiao Chen and Quanyi Li and Tai Wang and Tianfan Xue and Jiangmiao Pang(参考訳) 近年のニューラルラディアンス分野の進歩により、大規模シーンのリアルなデジタル化が可能になったが、画像キャプチャープロセスはまだ時間がかかり、労働集約的だ。 従来の作業では,Next-Best-View (NBV) ポリシを使用して,アクティブな3次元再構築を試みていた。 しかし、既存のnbvポリシーは、手作りの基準、限られたアクションスペース、あるいはシーンごとの最適化表現に大きく依存している。 これらの制約は、データセット間の一般化性を制限する。 そこで我々は、エンドツーエンドの一般化可能なNBVポリシーであるGenNBVを提案する。 我々の政策は強化学習(RL)ベースのフレームワークを採用し、典型的な限られたアクション空間を5次元自由空間に拡張する。 エージェントドローンはどんな視点からでもスキャンでき、訓練中は目に見えないジオメトリと対話することもできます。 クロスデータセットの一般化性を高めるために,幾何学的,意味的,行動表現を含む新しいマルチソース状態埋め込みを提案する。 このNBVポリシーを評価するために,Houses3KとOmniObject3Dデータセットを用いたIsaac Gymシミュレータを用いたベンチマークを構築した。 実験の結果、これらのデータセットから、目に見えないビルディングスケールのオブジェクトに対して、ポリシーが98.26%と97.12%のカバレッジ比を達成した。

While recent advances in neural radiance field enable realistic digitization for large-scale scenes, the image-capturing process is still time-consuming and labor-intensive. Previous works attempt to automate this process using the Next-Best-View (NBV) policy for active 3D reconstruction. However, the existing NBV policies heavily rely on hand-crafted criteria, limited action space, or per-scene optimized representations. These constraints limit their cross-dataset generalizability. To overcome them, we propose GenNBV, an end-to-end generalizable NBV policy. Our policy adopts a reinforcement learning (RL)-based framework and extends typical limited action space to 5D free space. It empowers our agent drone to scan from any viewpoint, and even interact with unseen geometries during training. To boost the cross-dataset generalizability, we also propose a novel multi-source state embedding, including geometric, semantic, and action representations. We establish a benchmark using the Isaac Gym simulator with the Houses3K and OmniObject3D datasets to evaluate this NBV policy. Experiments demonstrate that our policy achieves a 98.26% and 97.12% coverage ratio on unseen building-scale objects from these datasets, respectively, outperforming prior solutions.
翻訳日:2024-02-27 15:02:29 公開日:2024-02-25
# IoTデバイスを識別する通信トラフィック特性

Communication Traffic Characteristics Reveal an IoT Devices Identity ( http://arxiv.org/abs/2402.16173v1 )

ライセンス: Link先を確認
Rajarshi Roy Chowdhury, Debashish Roy, and Pg Emeroylariffion Abas(参考訳) モノのインターネット(IoT)は、生活水準を改善する21世紀の技術進歩の1つである。 しかし、ネットワークドメインでは、デバイス認証、トラフィックタイプ分類、悪意のあるトラフィック識別など、新たなタイプのセキュリティ課題も課されている。 伝統的に、インターネットプロトコル(IP)とメディアアクセス制御(MAC)アドレスはネットワーク内のネットワークに接続されたデバイスを特定するのに使われ、一方でこれらのアドレッシングスキームは、偽造攻撃やMACランダム化など、妥協されがちである。 したがって、明示的な識別子のみを用いたデバイス識別は難しい課題である。 正確なデバイス識別は、ネットワークのセキュリティにおいて重要な役割を果たす。 本稿では,通信トラフィック特性(あるいは暗黙の識別子)のみを用いて,ネットワークに接続されたIoTデバイスを特定するための,教師付き機械学習デバイスフィンガープリント(DFP)モデルを提案する。 単一送信制御プロトコル/インターネットプロトコル(TCP/IP)パケットヘッダーは、22個の特徴のベクトルとして表現された独自の指紋を生成するために利用されている。 実験の結果,提案手法は,UNSWデータセットを22個のスマートホームIoTデバイスを用いて,個々のIoTデバイスを分類する際の98%以上を達成している。 このことは,提案手法がネットワーク運用者にとってネットワークの安全性を高める上で有用であることを示している。

Internet of Things (IoT) is one of the technological advancements of the twenty-first century which can improve living standards. However, it also imposes new types of security challenges, including device authentication, traffic types classification, and malicious traffic identification, in the network domain. Traditionally, internet protocol (IP) and media access control (MAC) addresses are utilized for identifying network-connected devices in a network, whilst these addressing schemes are prone to be compromised, including spoofing attacks and MAC randomization. Therefore, device identification using only explicit identifiers is a challenging task. Accurate device identification plays a key role in securing a network. In this paper, a supervised machine learning-based device fingerprinting (DFP) model has been proposed for identifying network-connected IoT devices using only communication traffic characteristics (or implicit identifiers). A single transmission control protocol/internet protocol (TCP/IP) packet header features have been utilized for generating unique fingerprints, with the fingerprints represented as a vector of 22 features. Experimental results have shown that the proposed DFP method achieves over 98% in classifying individual IoT devices using the UNSW dataset with 22 smart-home IoT devices. This signifies that the proposed approach is invaluable to network operators in making their networks more secure.
翻訳日:2024-02-27 15:02:04 公開日:2024-02-25
# 非線形性で「プロベ」rtyを打つことなど

Hitting "Probe"rty with Non-Linearity, and More ( http://arxiv.org/abs/2402.16168v1 )

ライセンス: Link先を確認
Avik Pal, Madhura Pawar(参考訳) 構造プローブは線形変換を学び、依存木がどのように言語モデルの隠れた状態に埋め込まれているかを見つける。 この単純な設計では、符号化された情報の構造を完全に活用することはできない。 したがって、エンコードされた情報の構造を十分に調査するために、非線形構造プローブを組み込む。 我々はホワイトらが導入した非線形構造プローブの設計を改定し、その設計をよりシンプルかつ効果的にする。 また,文中の2つの単語がどれだけ強く関連しているかを定性的に評価する可視化フレームワークも設計した。 この手法を用いて, 非線形プローブ変種が構文情報の符号化に優れているかを理解する。 さらに、BERTが各レイヤにエンコードする依存性ツリーの構造を質的に調査するためにも使用しています。 放射基底関数(RBF)は線形プローブよりもBERTモデルに有効な非線形プローブであることがわかった。

Structural probes learn a linear transformation to find how dependency trees are embedded in the hidden states of language models. This simple design may not allow for full exploitation of the structure of the encoded information. Hence, to investigate the structure of the encoded information to its full extent, we incorporate non-linear structural probes. We reformulate the design of non-linear structural probes introduced by White et al. making its design simpler yet effective. We also design a visualization framework that lets us qualitatively assess how strongly two words in a sentence are connected in the predicted dependency tree. We use this technique to understand which non-linear probe variant is good at encoding syntactical information. Additionally, we also use it to qualitatively investigate the structure of dependency trees that BERT encodes in each of its layers. We find that the radial basis function (RBF) is an effective non-linear probe for the BERT model than the linear probe.
翻訳日:2024-02-27 15:01:44 公開日:2024-02-25
# 放射線・超音波・電気生理学における生信号データからの深層学習分類の可能性について

On the Feasibility of Deep Learning Classification from Raw Signal Data in Radiology, Ultrasonography and Electrophysiology ( http://arxiv.org/abs/2402.16165v1 )

ライセンス: Link先を確認
Szilard Enyedi(参考訳) 医療イメージングは医療において非常に有用なツールであり、人体内部を非侵襲的に覗くために様々な技術が用いられている。 放射線学におけるニューラルネットワークによる深層学習は、放射線学者コミュニティから歓迎された。 現在デプロイまたは研究されているディープラーニングソリューションのほとんどは、すでに生成された医療スキャンの画像に適用され、ニューラルネットワークを使用して画像の生成を支援し、あるいは分光器内の特定の物質マーカーを特定するために使用される。 この論文の著者は、もしニューラルネットワークがスキャニングマシンからの生信号に基づいて直接訓練されたら、既に処理された画像よりも多くのニュアンス情報にアクセスできるようになると仮定している。 本稿では, 放射光, 超音波, 電気生理学における深層学習の主な応用について述べるとともに, 提案したニューラルネットワークが生信号を直接学習できるかどうかを論じる。

Medical imaging is a very useful tool in healthcare, various technologies being employed to non-invasively peek inside the human body. Deep learning with neural networks in radiology was welcome - albeit cautiously - by the radiologist community. Most of the currently deployed or researched deep learning solutions are applied on already generated images of medical scans, use the neural networks to aid in the generation of such images, or use them for identifying specific substance markers in spectrographs. This paper's author posits that if the neural networks were trained directly on the raw signals from the scanning machines, they would gain access to more nuanced information than from the already processed images, hence the training - and later, the inferences - would become more accurate. The paper presents the main current applications of deep learning in radiography, ultrasonography, and electrophysiology, and discusses whether the proposed neural network training directly on raw signals is feasible.
翻訳日:2024-02-27 15:01:28 公開日:2024-02-25
# リモートセンシング画像セグメンテーションのための雑音ラベルを用いたタスク特定事前学習

Task Specific Pretraining with Noisy Labels for Remote sensing Image Segmentation ( http://arxiv.org/abs/2402.16164v1 )

ライセンス: Link先を確認
Chenying Liu, Conrad Albrecht, Yi Wang, Xiao Xiang Zhu(参考訳) 近年,遠隔センシング社会では,教師付き深層学習モデルのトレーニングにおいて,正確なラベルの需要を削減できることから,自己監督が注目されている。 セルフスーパービジョン法は一般的に、教師なしの方法で事前訓練モデルに画像レベル情報を利用する。 これらの事前訓練されたエンコーダは多くの下流タスクで有効性を示すが、セグメンテーションタスクのパフォーマンスは分類タスクほど良くないことが多い。 一方で、容易に利用可能なラベルソース(自動ラベルツールや土地被覆土地利用製品など)が多数存在し、セグメンテーションモデルのトレーニングに大量のノイズラベルを提供することができる。 本研究では,セグメンテーションタスク特定事前訓練のためのノイズラベルの未発見の可能性を探究し,微調整中に不一致なカテゴリや異なるデコーダに直面する場合の頑健さについて検討する。 具体的には,各レイヤに対するノイズラベルの影響を教師付きモデルトレーニングで検証し,作業の基盤として活用する。 2つのデータセットの実験は、ノイズラベルを用いたタスク特定教師付き事前学習の有効性を示している。 リモートセンシング画像セグメンテーションのための事前学習戦略の精度と汎用性を向上させるため,新たな道筋に光を当てることが期待される。

In recent years, self-supervision has drawn a lot of attention in remote sensing society due to its ability to reduce the demand of exact labels in supervised deep learning model training. Self-supervision methods generally utilize image-level information to pretrain models in an unsupervised fashion. Though these pretrained encoders show effectiveness in many downstream tasks, their performance on segmentation tasks is often not as good as that on classification tasks. On the other hand, many easily available label sources (e.g., automatic labeling tools and land cover land use products) exist, which can provide a large amount of noisy labels for segmentation model training. In this work, we propose to explore the under-exploited potential of noisy labels for segmentation task specific pretraining, and exam its robustness when confronted with mismatched categories and different decoders during fine-tuning. Specifically, we inspect the impacts of noisy labels on different layers in supervised model training to serve as the basis of our work. Experiments on two datasets indicate the effectiveness of task specific supervised pretraining with noisy labels. The findings are expected to shed light on new avenues for improving the accuracy and versatility of pretraining strategies for remote sensing image segmentation.
翻訳日:2024-02-27 15:01:12 公開日:2024-02-25
# DistALANER: オープンソースソフトウェアエコシステムにおけるアクティブラーニングの拡張されたエンティティ認識

DistALANER: Distantly Supervised Active Learning Augmented Named Entity Recognition in the Open Source Software Ecosystem ( http://arxiv.org/abs/2402.16159v1 )

ライセンス: Link先を確認
Somnath Banerjee, Avik Dutta, Aaditya Agrawal, Rima Hazra, Animesh Mukherjee(参考訳) 本稿では,オープンソースソフトウェアシステムに適したエンティティ認識(NER)技術を提案する。 提案手法は,2段階の遠隔教師付きアノテーションプロセスを用いて,注釈付きソフトウェアデータの不足に対処することを目的としている。 このプロセスは、言語ヒューリスティックス、ユニークなルックアップテーブル、外部知識源、アクティブな学習アプローチを戦略的に活用する。 これらの強力な技術を活用することで、モデルの性能を高めるだけでなく、コストや専門家アノテータの不足に伴う制限を効果的に緩和する。 我々のフレームワークは、最先端のLLMよりも大幅に優れています。 また,関係抽出の下流課題におけるNERの有効性を示す。

This paper proposes a novel named entity recognition (NER) technique specifically tailored for the open-source software systems. Our approach aims to address the scarcity of annotated software data by employing a comprehensive two-step distantly supervised annotation process. This process strategically leverages language heuristics, unique lookup tables, external knowledge sources, and an active learning approach. By harnessing these powerful techniques, we not only enhance model performance but also effectively mitigate the limitations associated with cost and the scarcity of expert annotators. It is noteworthy that our framework significantly outperforms the state-of-the-art LLMs by a substantial margin. We also show the effectiveness of NER in the downstream task of relation extraction.
翻訳日:2024-02-27 15:00:52 公開日:2024-02-25
# 小サンプルを用いた分布自由フェアフェデレーション学習

Distribution-Free Fair Federated Learning with Small Samples ( http://arxiv.org/abs/2402.16158v1 )

ライセンス: Link先を確認
Qichuan Yin, Junzhou Huang, Huaxiu Yao, Linjun Zhang(参考訳) 分散データトレーニングの能力により、現実世界のアプリケーションで連合学習の重要性が高まるにつれて、集団間の公平性への懸念に対処することが極めて重要になっている。 しかし、公平性を保証するための既存の機械学習アルゴリズムのほとんどは、集中型データ環境向けに設計されており、一般に大規模なサンプルと分散の仮定を必要とする。 この問題に対処するために,小サンプルを用いた分散環境下での分布自由フェアラーニングに特化したポストプロセッシングアルゴリズムであるFedFaiREEを紹介する。 当社のアプローチは,クライアントの不均一性,通信コスト,サンプルサイズなど,分散環境におけるユニークな課題を考慮に入れている。 公正性と精度の両面において厳密な理論的保証を提供し,実験結果により,提案手法の堅牢な実証検証を行う。

As federated learning gains increasing importance in real-world applications due to its capacity for decentralized data training, addressing fairness concerns across demographic groups becomes critically important. However, most existing machine learning algorithms for ensuring fairness are designed for centralized data environments and generally require large-sample and distributional assumptions, underscoring the urgent need for fairness techniques adapted for decentralized and heterogeneous systems with finite-sample and distribution-free guarantees. To address this issue, this paper introduces FedFaiREE, a post-processing algorithm developed specifically for distribution-free fair learning in decentralized settings with small samples. Our approach accounts for unique challenges in decentralized environments, such as client heterogeneity, communication costs, and small sample sizes. We provide rigorous theoretical guarantees for both fairness and accuracy, and our experimental results further provide robust empirical validation for our proposed method.
翻訳日:2024-02-27 15:00:40 公開日:2024-02-25
# リモート希土類イオンビットのスケーラブル多部絡み合い

Scalable Multipartite Entanglement of Remote Rare-earth Ion Qubits ( http://arxiv.org/abs/2402.16224v1 )

ライセンス: Link先を確認
Andrei Ruskuc, Chun-Ju Wu, Emanuel Green, Sophie L. N. Hermans, Joonhee Choi, Andrei Faraon(参考訳) 内部スピンを持つ単一光子エミッタは、通信やセンシングにおける変換技術のための長距離エンタングルメント分布を可能にする量子リピータネットワークを開発するための主要な候補である。 しかし、現在の数ノードネットワークを超えるスケーリングでは、量子リンク効率と忠実性を大幅に改善する必要がある。 固体エミッタはその結晶環境のために特に有望であり、ナノフォトニクスの統合を可能にし、メモリと処理のためのスピンを提供する。 しかし、ホスト結晶の固有空間的および時間的変化は、静的なシフトと光遷移周波数の動的揺らぎを引き起こし、大規模で多成分の絡み合いを確立する上で大きな課題となる。 本稿では、周波数消去光子検出と適応型リアルタイム量子制御を併用した量子ネットワークへのスケーラブルなアプローチを提案する。 これにより、不要な光周波数変動にも敏感な周波数多重絡み合い分布が可能となる。 単一希土類イオンは、長いスピンコヒーレンス、狭い光不均一分布、長い光子寿命のため、このプロトコルを実装するのに理想的なプラットフォームである。 2つの171Yb:YVO4イオンを遠隔ナノフォトニックキャビティで使用し、バイパートライトの絡み合いと確率的に量子状態の伝送を行う。 次に、このプロトコルを第3のイオンを含むように拡張し、3部w状態を生成する:高度な量子ネットワークアプリケーションのための有用な入力。 その結果、固体エミッタの非均一性と不安定性によって課される普遍的な限界を克服する実用的な経路が得られ、一方、単一の希土類イオンを将来の量子インターネットのためのスケーラブルなプラットフォームとして示すことができる。

Single photon emitters with internal spin are leading contenders for developing quantum repeater networks, enabling long-range entanglement distribution for transformational technologies in communications and sensing. However, scaling beyond current few-node networks will require radical improvements to quantum link efficiencies and fidelities. Solid-state emitters are particularly promising due to their crystalline environment, enabling nanophotonic integration and providing spins for memory and processing. However, inherent spatial and temporal variations in host crystals give rise to static shifts and dynamic fluctuations in optical transition frequencies, posing formidable challenges in establishing large-scale, multipartite entanglement. Here, we introduce a scalable approach to quantum networking that utilizes frequency erasing photon detection in conjunction with adaptive, real-time quantum control. This enables frequency multiplexed entanglement distribution that is also insensitive to deleterious optical frequency fluctuations. Single rare-earth ions are an ideal platform for implementing this protocol due to their long spin coherence, narrow optical inhomogeneous distributions, and long photon lifetimes. Using two 171Yb:YVO4 ions in remote nanophotonic cavities we herald bipartite entanglement and probabilistically teleport quantum states. Then, we extend this protocol to include a third ion and prepare a tripartite W state: a useful input for advanced quantum networking applications. Our results provide a practical route to overcoming universal limitations imposed by non-uniformity and instability in solid-state emitters, whilst also showcasing single rare-earth ions as a scalable platform for the future quantum internet.
翻訳日:2024-02-27 14:53:23 公開日:2024-02-25
# 医用画像における腫瘍検出のための前処理法と畳み込みニューラルネットワークの統合

Integrating Preprocessing Methods and Convolutional Neural Networks for Effective Tumor Detection in Medical Imaging ( http://arxiv.org/abs/2402.16221v1 )

ライセンス: Link先を確認
Ha Anh Vu(参考訳) 本研究では,畳み込みニューラルネットワーク(CNN)を用いた医用画像における腫瘍検出のための機械学習手法を提案する。 本研究は,腫瘍検出に関連する画像の特徴を高めるための前処理技術に焦点を当て,CNNモデルの開発と訓練を行った。 入力画像の前処理や腫瘍領域の強調のために,ガウス平滑化,バイラテラルフィルタリング,k平均クラスタリングなど様々な画像処理技術が用いられる。 cnnモデルは、モデルの一般化を促進するために拡張とデータジェネレータを使用して、医療画像のデータセットで訓練および評価される。 医用画像の腫瘍を正確に検出する手法の有効性を実験的に示し,医療における診断ツールの改善への道を開いた。

This research presents a machine-learning approach for tumor detection in medical images using convolutional neural networks (CNNs). The study focuses on preprocessing techniques to enhance image features relevant to tumor detection, followed by developing and training a CNN model for accurate classification. Various image processing techniques, including Gaussian smoothing, bilateral filtering, and K-means clustering, are employed to preprocess the input images and highlight tumor regions. The CNN model is trained and evaluated on a dataset of medical images, with augmentation and data generators utilized to enhance model generalization. Experimental results demonstrate the effectiveness of the proposed approach in accurately detecting tumors in medical images, paving the way for improved diagnostic tools in healthcare.
翻訳日:2024-02-27 14:52:54 公開日:2024-02-25
# ツイーザークロックの普遍量子演算とアンシラによる読み出し

Universal quantum operations and ancilla-based readout for tweezer clocks ( http://arxiv.org/abs/2402.16220v1 )

ライセンス: Link先を確認
Ran Finkelstein, Richard Bing-Shiun Tsai, Xiangkai Sun, Pascal Scholl, Su Direkci, Tuvia Gefen, Joonhee Choi, Adam L. Shaw, Manuel Endres(参考訳) 絡み合いを利用して測定の精度を高めることは、量子計測の分野における長い目標である。 しかし、ノイズの存在下で量子理論が許容する最高の感度を得るには、最適なプローブ状態の生成と読み出し戦略が必要である。 時間を測定するための主要なシステムである中性原子光時計は、近年の絡み合い発生の進展を示すが、現在ではそのようなスキームを実現するための制御能力が欠如している。 ここでは、中性原子の超狭光遷移に対する普遍量子演算とアンシラベースの読み出しを示す。 tweezerクロックプラットフォームでの実証により、中性原子の光時計を用いた量子計測への回路ベースのアプローチが可能となった。 この目的のために、Rydberg相互作用による99.35%の忠実度を持つ2量子エンタングルゲートと光クロックキュービットの動的接続を実証し、ローカルアドレスと組み合わせ、普遍的にプログラム可能な量子回路を実装した。 このアプローチを用いることで,グリーンベルガー・ホルン・ザイリンガー状態(GHZ)のカスケードである近接最適絡み合ったプローブ状態を生成し,2つの四角形GHZ読み出しを行う。 また,クロック量子ビットの非破壊的な条件リセットによる繰り返しの高速位相検出を行い,中性原子に対するancilla-based quantum logic spectroscopy (qls) を実装した。 最後に、これをマルチキュービットパリティチェックと測定に基づくベル状態準備に拡張する。 我々の研究は、中性原子を持つハイブリッドプロセッサクロックデバイスの基礎を築いており、より一般的には量子センサーと結びついた量子プロセッサの実用的な応用の未来を指し示しています。

Enhancing the precision of measurements by harnessing entanglement is a long-sought goal in the field of quantum metrology. Yet attaining the best sensitivity allowed by quantum theory in the presence of noise is an outstanding challenge, requiring optimal probe-state generation and readout strategies. Neutral atom optical clocks, leading systems for measuring time, have shown recent progress in terms of entanglement generation, but currently lack the control capabilities to realize such schemes. Here we show universal quantum operations and ancilla-based readout for ultranarrow optical transitions of neutral atoms. Our demonstration in a tweezer clock platform enables a circuit-based approach to quantum metrology with neutral atom optical clocks. To this end, we demonstrate two-qubit entangling gates with >99.35% fidelity via Rydberg interactions and dynamical connectivity for optical clock qubits, which we combine with local addressing to implement universally programmable quantum circuits. Using this approach, we generate a near-optimal entangled probe state, a cascade of Greenberger-Horne-Zeilinger (GHZ) states of different sizes, and perform dual-quadrature GHZ readout. We also show repeated fast phase detection with non-destructive conditional reset of clock qubits and minimal dead time between repetitions by implementing ancilla-based quantum logic spectroscopy (QLS) for neutral atoms. Finally, we extend this to multi-qubit parity checks and measurement-based Bell state preparation. Our work lays the foundation for hybrid processor-clock devices with neutral atoms and more generally points to a future of practical applications for quantum processors linked with quantum sensors.
翻訳日:2024-02-27 14:52:42 公開日:2024-02-25
# llmの幻覚傾向ベンチマークのための仮説用語データセット

HypoTermQA: Hypothetical Terms Dataset for Benchmarking Hallucination Tendency of LLMs ( http://arxiv.org/abs/2402.16211v1 )

ライセンス: Link先を確認
Cem Uluoglakci, Tugba Taskaya Temizel (Middle East Technical University)(参考訳) 幻覚は、Large Language Models(LLM)の信頼性と整合性に大きな課題をもたらし、チャットボットアプリケーションを超えて広く受け入れられることを制限する。 継続的な努力にもかかわらず、幻覚はllmにおいて依然として一般的な挑戦である。 幻覚自体の検出は、しばしば手動によるラベル付けや制約付き評価を必要とする、恐ろしい作業である。 本稿では,LLMの幻覚傾向のベンチマークと効率的な幻覚検出を組み合わせた,スケーラブルな自動フレームワークを提案する。 我々はLSMを利用して仮説現象に関連する課題を発生させ,その後,効率的な幻覚検出のためのエージェントとして活用する。 フレームワークはドメインに依存しないので、どんなドメインでもベンチマークの作成や評価にどんな言語モデルも使用できる。 そこで我々は,最先端モデルの性能が3%から11%の範囲で評価可能なhypotermqaベンチマークデータセットを紹介し,評価エージェントは幻覚予測において6%の誤差率を示した。 提案するフレームワークは、LSMのテストと改善の機会を提供する。 さらに、法、健康、財務といった特定のドメインに適したベンチマークデータセットを生成する可能性がある。

Hallucinations pose a significant challenge to the reliability and alignment of Large Language Models (LLMs), limiting their widespread acceptance beyond chatbot applications. Despite ongoing efforts, hallucinations remain a prevalent challenge in LLMs. The detection of hallucinations itself is also a formidable task, frequently requiring manual labeling or constrained evaluations. This paper introduces an automated scalable framework that combines benchmarking LLMs' hallucination tendencies with efficient hallucination detection. We leverage LLMs to generate challenging tasks related to hypothetical phenomena, subsequently employing them as agents for efficient hallucination detection. The framework is domain-agnostic, allowing the use of any language model for benchmark creation or evaluation in any domain. We introduce the publicly available HypoTermQA Benchmarking Dataset, on which state-of-the-art models' performance ranged between 3% and 11%, and evaluator agents demonstrated a 6% error rate in hallucination prediction. The proposed framework provides opportunities to test and improve LLMs. Additionally, it has the potential to generate benchmarking datasets tailored to specific domains, such as law, health, and finance.
翻訳日:2024-02-27 14:52:10 公開日:2024-02-25
# IR2:情報検索のための情報正規化

IR2: Information Regularization for Information Retrieval ( http://arxiv.org/abs/2402.16200v1 )

ライセンス: Link先を確認
Jianyou Wang, Kaicheng Wang, Xiaoyue Wang, Weili Cao, Ramamohan Paturi, Leon Bergen(参考訳) 限られたトレーニングデータ、特に複雑なクエリの設定における効果的な情報検索(IR)は、依然として難しい課題である。 本稿では,ir2,情報検索のための情報正規化,合成データ生成時の過剰フィッティングを低減する手法を提案する。 本手法は, 複雑な問合せを特徴とする3つのIRタスク(DORIS-MAE, ArguAna, WhatsThatBook)において, IR合成データ生成における正規化手法の新たな応用を示す。 実験の結果,我々の正規化手法は,検討したタスクにおいて従来の合成クエリ生成手法よりも優れるだけでなく,コストを最大50%削減できることがわかった。 さらに,問合せ合成のパイプラインインプット,プロンプト,出力の各段階における3つの正規化手法について,正規化を適用しないモデルと比較して,性能改善の程度が異なる分類・検討を行った。 これは、データ制限された複雑なIRシナリオで合成データ生成を最適化するための体系的なアプローチを提供する。 すべてのコード、プロンプト、合成データはhttps://github.com/Info-Regularization/Information-Regularizationで入手できる。

Effective information retrieval (IR) in settings with limited training data, particularly for complex queries, remains a challenging task. This paper introduces IR2, Information Regularization for Information Retrieval, a technique for reducing overfitting during synthetic data generation. This approach, representing a novel application of regularization techniques in synthetic data creation for IR, is tested on three recent IR tasks characterized by complex queries: DORIS-MAE, ArguAna, and WhatsThatBook. Experimental results indicate that our regularization techniques not only outperform previous synthetic query generation methods on the tasks considered but also reduce cost by up to 50%. Furthermore, this paper categorizes and explores three regularization methods at different stages of the query synthesis pipeline-input, prompt, and output-each offering varying degrees of performance improvement compared to models where no regularization is applied. This provides a systematic approach for optimizing synthetic data generation in data-limited, complex-query IR scenarios. All code, prompts and synthetic data are available at https://github.com/Info-Regularization/Information-Regularization.
翻訳日:2024-02-27 14:51:51 公開日:2024-02-25
# コード補完のための言語モデル: 実践的評価

Language Models for Code Completion: A Practical Evaluation ( http://arxiv.org/abs/2402.16197v1 )

ライセンス: Link先を確認
Maliheh Izadi, Jonathan Katzy, Tim van Dam, Marc Otten, Razvan Mihai Popescu, Arie van Deursen(参考訳) 自動コード補完のためのトランスフォーマーベースの言語モデルはこれまで大きな期待を寄せてきたが、これらのモデルの評価はほとんど実際のデータを使用しない。 本研究は、実世界のコードを完成させる際の3つの公コード言語モデルの定量的および質的評価を提供する。 私たちはまず,そのモデルのオンライン評価のために,オープンソースのIDE拡張であるCode4Meを開発した。 実際の自動補完利用データを1200人以上から1年以上にわたって収集し、6万以上の有効期間を計上した。 これらのモデルは、12のプログラミング言語にまたがる6つの標準メトリクスを用いて評価された。 次に,モデル性能の低下の原因を明らかにするため,実世界の完了要求1690の質的研究を行った。 また、ベンチマーク合成データセットと2つのマスキング戦略を用いて、オンラインおよびオフライン設定におけるモデルのパフォーマンスの比較分析を行った。 開発者が様々な言語でコード補完を利用する一方で、PythonやJavaなどの主流言語で最高の結果が得られます。 InCoderはすべてのプログラミング言語で他のモデルよりも優れており、トレーニングデータと目的の重要性を強調している。 また,オフライン評価は実世界のシナリオを正確に反映しないことを明らかにした。 モデルの予測を定性的に分析した結果、66.3%の失敗はモデルの制限によるものであり、24.4%は開発コンテキストにおける不適切なモデルの使用によるものであり、9.3%は開発者が書き直した有効な要求であることがわかった。 これらの結果を踏まえ、現状の限界を克服するためのいくつかの戦略を提案する。 トレーニング目標の改良、タイポグラフィーエラーに対するレジリエンス向上、ハイブリッドアプローチの採用、実装とユーザビリティの向上などだ。

Transformer-based language models for automatic code completion have shown great promise so far, yet the evaluation of these models rarely uses real data. This study provides both quantitative and qualitative assessments of three public code language models when completing real-world code. We first developed an open-source IDE extension, Code4Me, for the online evaluation of the models. We collected real auto-completion usage data for over a year from more than 1200 users, resulting in over 600K valid completions. These models were then evaluated using six standard metrics across twelve programming languages. Next, we conducted a qualitative study of 1690 real-world completion requests to identify the reasons behind the poor model performance. A comparative analysis of the models' performance in online and offline settings was also performed, using benchmark synthetic datasets and two masking strategies. Our findings suggest that while developers utilize code completion across various languages, the best results are achieved for mainstream languages such as Python and Java. InCoder outperformed the other models across all programming languages, highlighting the significance of training data and objectives. Our study also revealed that offline evaluations do not accurately reflect real-world scenarios. Upon qualitative analysis of the model's predictions, we found that 66.3% of failures were due to the models' limitations, 24.4% occurred due to inappropriate model usage in a development context, and 9.3% were valid requests that developers overwrote. Given these findings, we propose several strategies to overcome the current limitations. These include refining training objectives, improving resilience to typographical errors, adopting hybrid approaches, and enhancing implementations and usability.
翻訳日:2024-02-27 14:51:30 公開日:2024-02-25
# OpenFOAMとSmartSimを用いた機械学習と計算流体力学の組み合わせ

Combining Machine Learning with Computational Fluid Dynamics using OpenFOAM and SmartSim ( http://arxiv.org/abs/2402.16196v1 )

ライセンス: Link先を確認
Tomislav Maric and Mohammed Elwardi Fadeli and Alessandro Rigazzi and Andrew Shao and Andre Weiner(参考訳) 機械学習(ML)と計算流体力学(CFD)を組み合わせることで、技術的および自然システムのシミュレーションを改善する多くの可能性が開ける。 しかし、cfd+mlアルゴリズムは異種ハードウェア上でのデータ交換、同期、計算を必要とするため、大規模な問題に対する実装は極めて困難である。 オープンソースソフトウェア OpenFOAM と SmartSim を使って CFD+ML アルゴリズムを開発するための,効率的かつスケーラブルなソリューションを提供する。 SmartSimは、CFD+MLアルゴリズムのプログラミングを著しく単純化するOrchestratorと、MLとCFDクライアント間の高度にスケーラブルなデータ交換を保証するRedisデータベースを提供する。 我々はSmartSimを利用してOpenFOAMのさまざまなセグメントをMLに効果的に結合する方法を示し、これにはプリ/ポスト処理アプリケーション、ソルバ、関数オブジェクト、メッシュモーションソルバが含まれる。 また、CFD+MLにおける実世界のアプリケーションの出発点として使用できる例を含むOpenFOAMサブモジュールも提供する。

Combining machine learning (ML) with computational fluid dynamics (CFD) opens many possibilities for improving simulations of technical and natural systems. However, CFD+ML algorithms require exchange of data, synchronization, and calculation on heterogeneous hardware, making their implementation for large-scale problems exceptionally challenging. We provide an effective and scalable solution to developing CFD+ML algorithms using open source software OpenFOAM and SmartSim. SmartSim provides an Orchestrator that significantly simplifies the programming of CFD+ML algorithms and a Redis database that ensures highly scalable data exchange between ML and CFD clients. We show how to leverage SmartSim to effectively couple different segments of OpenFOAM with ML, including pre/post-processing applications, solvers, function objects, and mesh motion solvers. We additionally provide an OpenFOAM sub-module with examples that can be used as starting points for real-world applications in CFD+ML.
翻訳日:2024-02-27 14:51:04 公開日:2024-02-25
# ASEM: 意識に基づく感情モデリングによるチャットボットの共感を高める

ASEM: Enhancing Empathy in Chatbot through Attention-based Sentiment and Emotion Modeling ( http://arxiv.org/abs/2402.16194v1 )

ライセンス: Link先を確認
Omama Hamad, Ali Hamdi, Khaled Shaban(参考訳) 効果的な特徴表現は、ディープニューラルネットワークに依存するテキスト生成モデルの性能向上に重要な役割を果たしている。 しかし、現在のアプローチでは、言語の深い意味を捉えることができないことや、小さな入力のバリエーションに敏感なことなど、いくつかの欠点があり、結果として生成されたテキストに大きな変化が生じた。 本稿では,これらの課題に対する新たな解法として,複数のエンコーダを混合して,ユーザの発話の感情的状態の異なる視点を提示し,同時に性能を向上させる手法を提案する。 本稿では,オープンドメインチャットボットの感情分析に基づいて感情分析を行うASEMと呼ばれるエンドツーエンドモデルアーキテクチャを提案する。 従来の注意機構とは対照的に,提案手法では,ユーザの発話中の感情や感情のニュアンスに対して一意的にゼロの注意戦略を用いる。 これにより、テキストの基本的な感情のトーンや感情の複雑さに合わせて、文脈に富んだ表現が生成される。 本手法は, 共感的, 多様な反応を呈し, 共感的埋め込みを生成する既存の手法より優れる。 提案モデルの性能は既存のモデルを大幅に上回り,感情検出精度を6.2%,語彙多様性を1.4%向上させた。

Effective feature representations play a critical role in enhancing the performance of text generation models that rely on deep neural networks. However, current approaches suffer from several drawbacks, such as the inability to capture the deep semantics of language and sensitivity to minor input variations, resulting in significant changes in the generated text. In this paper, we present a novel solution to these challenges by employing a mixture of experts, multiple encoders, to offer distinct perspectives on the emotional state of the user's utterance while simultaneously enhancing performance. We propose an end-to-end model architecture called ASEM that performs emotion analysis on top of sentiment analysis for open-domain chatbots, enabling the generation of empathetic responses that are fluent and relevant. In contrast to traditional attention mechanisms, the proposed model employs a specialized attention strategy that uniquely zeroes in on sentiment and emotion nuances within the user's utterance. This ensures the generation of context-rich representations tailored to the underlying emotional tone and sentiment intricacies of the text. Our approach outperforms existing methods for generating empathetic embeddings, providing empathetic and diverse responses. The performance of our proposed model significantly exceeds that of existing models, enhancing emotion detection accuracy by 6.2% and lexical diversity by 1.4%.
翻訳日:2024-02-27 14:50:47 公開日:2024-02-25
# 汎用・個人化フェデレーション学習におけるプロンプトチューニングの可能性

Unlocking the Potential of Prompt-Tuning in Bridging Generalized and Personalized Federated Learning ( http://arxiv.org/abs/2310.18285v4 )

ライセンス: Link先を確認
Wenlong Deng, Christos Thrampoulidis, Xiaoxiao Li(参考訳) Vision Transformer (ViT) と Visual Prompt Tuning (VPT) は、様々なコンピュータビジョンタスクの効率を改善して最先端のパフォーマンスを実現する。 これは、事前訓練されたvitモデルを連合学習(fl)設定に適応する、有望なパラダイムシフトを示唆する。 しかし、FLクライアント間のデータ不均一性の課題は、ViTモデルを効果的にデプロイする上で大きなハードルとなる。 既存の一般化fl(gfl)とパーソナライズfl(pfl)メソッドは、グローバルとローカルの両方のデータ分散のパフォーマンスのバランスに制限がある。 本稿では,共有プロンプトとグループ固有のプロンプトを一意に組み合わせることで,GFLとPFLのアプローチを統合する新しいアルゴリズムであるSGPTを提案する。 この設計により、SGPTは共通の特徴とグループ固有の特徴の両方をキャプチャできる。 SGPTの重要な特徴は、ローカルな微調整を必要とせずに、様々なローカルなクライアントデータ分布に自動的に適応できる単一のグローバルモデルのトレーニングを容易にするプロンプトセレクションモジュールである。 提案手法を効果的に訓練するために,ブロック座標降下(BCD)を用い,共通特徴情報(共有プロンプト)から学習し,さらに専門知識(グループプロンプト)を反復的に学習する。 理論的には、提案するプロンプトを学習することで、グローバルパフォーマンスとローカルパフォーマンスのギャップを低減できる。 実験では,sgptの優れた性能を実証するために,最先端のベースラインと比較し,ラベルと特徴の異質性について実験を行った。

Vision Transformers (ViT) and Visual Prompt Tuning (VPT) achieve state-of-the-art performance with improved efficiency in various computer vision tasks. This suggests a promising paradigm shift of adapting pre-trained ViT models to Federated Learning (FL) settings. However, the challenge of data heterogeneity among FL clients presents a significant hurdle in effectively deploying ViT models. Existing Generalized FL (GFL) and Personalized FL (PFL) methods have limitations in balancing performance across both global and local data distributions. In this paper, we present a novel algorithm, SGPT, that integrates GFL and PFL approaches by employing a unique combination of both shared and group-specific prompts. This design enables SGPT to capture both common and group-specific features. A key feature of SGPT is its prompt selection module, which facilitates the training of a single global model capable of automatically adapting to diverse local client data distributions without the need for local fine-tuning. To effectively train the prompts, we utilize block coordinate descent (BCD), learning from common feature information (shared prompts), and then more specialized knowledge (group prompts) iteratively. Theoretically, we justify that learning the proposed prompts can reduce the gap between global and local performance. Empirically, we conduct experiments on both label and feature heterogeneity settings in comparison with state-of-the-art baselines, along with extensive ablation studies, to substantiate the superior performance of SGPT.
翻訳日:2024-02-27 11:48:20 公開日:2024-02-25
# ヘテロフィリーグラフのためのグラフニューラルネットワーク:調査

Graph Neural Networks for Graphs with Heterophily: A Survey ( http://arxiv.org/abs/2202.07082v3 )

ライセンス: Link先を確認
Xin Zheng, Yi Wang, Yixin Liu, Ming Li, Miao Zhang, Di Jin, Philip S. Yu, Shirui Pan(参考訳) 近年、グラフ分析タスクや応用の無数の恩恵を受けているグラフニューラルネットワーク(GNN)の急速な発展を目撃している。 一般に、ほとんどのGNNは、同じクラスに属するノードが接続される可能性が高いというホモフィリーな仮定に依存している。 しかし、多くの実世界のシナリオにおいてユビキタスなグラフ特性として、例えば、異なるラベルを持つノードはリンクされがちであり、テーラーメイドのホモ親和性GNNの性能を著しく制限する。 したがって、異種グラフのためのGNNは、異種グラフ学習を強化する研究の注目を集めている。 本稿では,異種グラフに対するGNNの包括的レビューを行う。 具体的には,既存の異好性GNNモデルを概説し,概説と詳細な分析を行う系統分類法を提案する。 さらに,グラフのヘテロフィリー領域とグラフ研究領域の相関関係を考察し,グラフ研究コミュニティにおける実践的応用と学習課題の分野にわたって,より効果的なGNNの開発を促進することを目的とする。 最後に,GNNを用いたヘテロ親和性グラフ学習における今後の研究や応用の促進に向けた方向性を指摘する。

Recent years have witnessed fast developments of graph neural networks (GNNs) that have benefited myriads of graph analytic tasks and applications. In general, most GNNs depend on the homophily assumption that nodes belonging to the same class are more likely to be connected. However, as a ubiquitous graph property in numerous real-world scenarios, heterophily, i.e., nodes with different labels tend to be linked, significantly limits the performance of tailor-made homophilic GNNs. Hence, GNNs for heterophilic graphs are gaining increasing research attention to enhance graph learning with heterophily. In this paper, we provide a comprehensive review of GNNs for heterophilic graphs. Specifically, we propose a systematic taxonomy that essentially governs existing heterophilic GNN models, along with a general summary and detailed analysis. Furthermore, we discuss the correlation between graph heterophily and various graph research domains, aiming to facilitate the development of more effective GNNs across a spectrum of practical applications and learning tasks in the graph research community. In the end, we point out the potential directions to advance and stimulate more future research and applications on heterophilic graph learning with GNNs.
翻訳日:2024-02-27 11:47:54 公開日:2024-02-25
# 骨盤異常スクリーニングのための2段階の細胞病理画像合成

Two-stage Cytopathological Image Synthesis for Augmenting Cervical Abnormality Screening ( http://arxiv.org/abs/2402.14707v2 )

ライセンス: Link先を確認
Zhenrong Shen, Manman Fei, Xin Wang, Jiangdong Cai, Sheng Wang, Lichi Zhang, Qian Wang(参考訳) tct検診(automated thin-prep cytologic test)は、子宮頸癌診断の正確かつ効率的な診断に向けて、病理診断者を支援する。 現在の自動TCTスクリーニングシステムは主に異常な頸部細胞検出を伴い、高い品質のアノテーションを持つ大規模で多様なトレーニングデータを必要とする。 データ収集とアノテーションの努力を最小限に抑えるため、病理画像合成が自然に行われる。 しかし, 小型の子宮頸癌細胞に対する視覚的に有望な外観の合成と同時に, 現実的な大細胞病理像の生成が困難である。 本稿では,頚椎病変スクリーニングのための合成データを作成するための2段階画像合成フレームワークを提案する。 第1回Global Image Generationの段階では、正常な画像生成装置は正常な頸細胞でいっぱいの細胞病理画像を生成するように設計されている。 第2の局所細胞編集段階では、生成した画像から正常な細胞をランダムに選択し、提案する異常細胞合成器を用いて異なる種類の異常細胞に変換する。 正常な画像生成装置と異常なセルシンセサイザーの両方が、細胞病理学的画像内容のカスタマイズと空間レイアウト制御性の拡張のためのパラメーター効率の良い微調整手法を介して、画像合成のための事前訓練された基礎モデルである安定拡散に基づいて構築される。 本実験は, 合成フレームワークの合成画像品質, 多様性, 制御性を実証し, 異常な頸部細胞検出性能を向上させるためのデータ拡張の有効性を検証した。

Automatic thin-prep cytologic test (TCT) screening can assist pathologists in finding cervical abnormality towards accurate and efficient cervical cancer diagnosis. Current automatic TCT screening systems mostly involve abnormal cervical cell detection, which generally requires large-scale and diverse training data with high-quality annotations to achieve promising performance. Pathological image synthesis is naturally raised to minimize the efforts in data collection and annotation. However, it is challenging to generate realistic large-size cytopathological images while simultaneously synthesizing visually plausible appearances for small-size abnormal cervical cells. In this paper, we propose a two-stage image synthesis framework to create synthetic data for augmenting cervical abnormality screening. In the first Global Image Generation stage, a Normal Image Generator is designed to generate cytopathological images full of normal cervical cells. In the second Local Cell Editing stage, normal cells are randomly selected from the generated images and then are converted to different types of abnormal cells using the proposed Abnormal Cell Synthesizer. Both Normal Image Generator and Abnormal Cell Synthesizer are built upon Stable Diffusion, a pre-trained foundation model for image synthesis, via parameter-efficient fine-tuning methods for customizing cytopathological image contents and extending spatial layout controllability, respectively. Our experiments demonstrate the synthetic image quality, diversity, and controllability of the proposed synthesis framework, and validate its data augmentation effectiveness in enhancing the performance of abnormal cervical cell detection.
翻訳日:2024-02-27 11:44:53 公開日:2024-02-25
# noise-bert: ノイズアライメントを事前学習した統一摂動ロバストフレームワーク

Noise-BERT: A Unified Perturbation-Robust Framework with Noise Alignment Pre-training for Noisy Slot Filling Task ( http://arxiv.org/abs/2402.14494v2 )

ライセンス: Link先を確認
Jinxu Zhao, Guanting Dong, Yueyan Qiu, Tingfeng Hui, Xiaoshuai Song, Daichi Guo, Weiran Xu(参考訳) 現実的な対話システムでは、ユーザからの入力情報は様々な種類の入力摂動を受けており、スロット充足作業に影響を及ぼす。 規則に基づくデータ拡張手法は良好な結果を得たが、未知のノイズ障害に直面した場合、望ましい一般化を示すことができない。 本研究では,ノイズアライメント事前学習と統合型摂動ロバストフレームワークであるNoss-BERTを提案することで,スロット充填における入力摂動による課題に対処する。 提案手法は,スロットマスキング予測と文不明瞭性判定の2つの事前学習タスクを組み込んで,正確なスロット情報と雑音分布を捉えた事前学習言語モデルを導出することを目的としている。 微調整の間、我々はエンティティとラベルの意味表現を強化するために対照的な学習損失を用いる。 さらに,モデルのロバスト性を改善するために,敵対的攻撃訓練戦略を導入する。 実験結果から,提案手法が最先端モデルよりも優れていることを示し,その効果と一般化能力のさらなる分析を行った。

In a realistic dialogue system, the input information from users is often subject to various types of input perturbations, which affects the slot-filling task. Although rule-based data augmentation methods have achieved satisfactory results, they fail to exhibit the desired generalization when faced with unknown noise disturbances. In this study, we address the challenges posed by input perturbations in slot filling by proposing Noise-BERT, a unified Perturbation-Robust Framework with Noise Alignment Pre-training. Our framework incorporates two Noise Alignment Pre-training tasks: Slot Masked Prediction and Sentence Noisiness Discrimination, aiming to guide the pre-trained language model in capturing accurate slot information and noise distribution. During fine-tuning, we employ a contrastive learning loss to enhance the semantic representation of entities and labels. Additionally, we introduce an adversarial attack training strategy to improve the model's robustness. Experimental results demonstrate the superiority of our proposed approach over state-of-the-art models, and further analysis confirms its effectiveness and generalization ability.
翻訳日:2024-02-27 11:43:59 公開日:2024-02-25
# 学習システムとしての宇宙

The Universe as a Learning System ( http://arxiv.org/abs/2402.14423v2 )

ライセンス: Link先を確認
Tomer Shushi(参考訳) その顕微鏡レベルでは、宇宙は量子力学の法則に従う。 量子力学の流体力学的な定式化に続く粒子の量子軌道に着目し、一般的な要求の下で、量子系は、量子システムの自己組織化プロセスによって学習が歪められる基本的な機械学習アルゴリズムである勾配降下モデル(gradient descent model)の破壊版に従うことを提案する。 このような学習プロセスは、散逸、すなわち量子系が開いていると仮定した場合にのみ可能となる。 摩擦パラメータは量子系の非線形性を決定する。 次に提案したモデルの実証的なデモンストレーションを行う。

At its microscopic level, the universe follows the laws of quantum mechanics. Focusing on the quantum trajectories of particles as followed from the hydrodynamical formulation of quantum mechanics, we propose that under general requirements, quantum systems follow a disrupted version of the gradient descent model, a basic machine learning algorithm, where the learning is distorted due to the self-organizing process of the quantum system. Such a learning process is possible only when we assume dissipation, i.e., that the quantum system is open. The friction parameter determines the nonlinearity of the quantum system. We then provide an empirical demonstration of the proposed model.
翻訳日:2024-02-27 11:43:39 公開日:2024-02-25
# 視覚SLAMの高速化のための誤差マッチング排他法

An Error-Matching Exclusion Method for Accelerating Visual SLAM ( http://arxiv.org/abs/2402.14345v2 )

ライセンス: Link先を確認
Shaojie Zhang, Yinghui Wang, Jiaxing Ma, Wei Li, Jinlong Yang, Tao Yan, Yukai Wang, Liangyi Huang, Mingfeng Wang, and Ibragim R. Atadjanov(参考訳) Visual SLAMでは、正確な特徴マッチングを達成するのにかなりの時間がかかり、システムのリアルタイムパフォーマンスに重大な影響を与えます。 本稿では,GMS (Grid-based Motion Statistics) とRANSAC (Random Sample Consensus) を統合し,不一致特徴の除去を高速化する手法を提案する。 この手法はまずGMSアルゴリズムを用いて、近傍のマッチングペアの量を推定し、その信頼度に基づいてマッチをランク付けする。 その後、Random Sample Consensus (RANSAC)アルゴリズムが採用され、ミスマッチした特徴をさらに排除した。 一致した全てのペアをランダムに選択する時間的問題に対処するため,高信頼マッチングからサンプル選択を優先する問題に変換する。 これは最適モデルの反復解を可能にする。 実験の結果,提案手法は従来のGMS-RANSACと同等の精度で,KITTI,TUMデスク,TUM人形データセット上での平均実行時間を24.13%削減できることがわかった。

In Visual SLAM, achieving accurate feature matching consumes a significant amount of time, severely impacting the real-time performance of the system. This paper proposes an accelerated method for Visual SLAM by integrating GMS (Grid-based Motion Statistics) with RANSAC (Random Sample Consensus) for the removal of mismatched features. The approach first utilizes the GMS algorithm to estimate the quantity of matched pairs within the neighborhood and ranks the matches based on their confidence. Subsequently, the Random Sample Consensus (RANSAC) algorithm is employed to further eliminate mismatched features. To address the time-consuming issue of randomly selecting all matched pairs, this method transforms it into the problem of prioritizing sample selection from high-confidence matches. This enables the iterative solution of the optimal model. Experimental results demonstrate that the proposed method achieves a comparable accuracy to the original GMS-RANSAC while reducing the average runtime by 24.13% on the KITTI, TUM desk, and TUM doll datasets.
翻訳日:2024-02-27 11:43:16 公開日:2024-02-25
# MM-Point:マルチビュー情報強化型マルチモーダルセルフスーパービジョン3Dポイントクラウド理解

MM-Point: Multi-View Information-Enhanced Multi-Modal Self-Supervised 3D Point Cloud Understanding ( http://arxiv.org/abs/2402.10002v3 )

ライセンス: Link先を確認
Hai-Tao Yu, Mofei Song(参考訳) 知覚において、複数の感覚情報は、2Dビューから3Dオブジェクトに視覚情報をマッピングするために統合され、3D環境での理解に有用である。 しかし、異なる角度からレンダリングされた単一の2Dビューでは、限られた部分情報しか提供できないため、多視点2D情報の豊かさと価値は、3Dオブジェクトに対して優れた自己監督信号を提供することができる。 本稿では,モーダル内およびモーダル間類似性に基づく自己教師付きポイントクラウド表現学習手法MM-Pointを提案する。 MM-Pointの中核は、3Dオブジェクトと複数の2Dビューを同時にやりとりするマルチモーダル相互作用にある。 コントラスト学習に基づく2次元多視点情報の一貫したクロスモーダル目的をより効果的に実現するために,マルチMLPとマルチレベル拡張戦略を提案する。 注意深く設計されたトランスフォーメーション戦略により、2次元のマルチビューにおけるマルチレベル不変性をさらに学習する。 MM-Pointは、様々な下流タスクにおける最先端(SOTA)パフォーマンスを示す。 例えば、合成データセットmodelnet40では92.4%、実世界のデータセットscanobjectnnでは87.8%という最高精度を達成している。 さらに,その効果を,マイナショット分類,3次元部分分割,3次元意味セグメンテーションなどのタスクで実証する。

In perception, multiple sensory information is integrated to map visual information from 2D views onto 3D objects, which is beneficial for understanding in 3D environments. But in terms of a single 2D view rendered from different angles, only limited partial information can be provided.The richness and value of Multi-view 2D information can provide superior self-supervised signals for 3D objects. In this paper, we propose a novel self-supervised point cloud representation learning method, MM-Point, which is driven by intra-modal and inter-modal similarity objectives. The core of MM-Point lies in the Multi-modal interaction and transmission between 3D objects and multiple 2D views at the same time. In order to more effectively simultaneously perform the consistent cross-modal objective of 2D multi-view information based on contrastive learning, we further propose Multi-MLP and Multi-level Augmentation strategies. Through carefully designed transformation strategies, we further learn Multi-level invariance in 2D Multi-views. MM-Point demonstrates state-of-the-art (SOTA) performance in various downstream tasks. For instance, it achieves a peak accuracy of 92.4% on the synthetic dataset ModelNet40, and a top accuracy of 87.8% on the real-world dataset ScanObjectNN, comparable to fully supervised methods. Additionally, we demonstrate its effectiveness in tasks such as few-shot classification, 3D part segmentation and 3D semantic segmentation.
翻訳日:2024-02-27 11:41:56 公開日:2024-02-25