このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240505となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# マルチモーダル人工知能システムを用いた視覚的命令接地のためのグラフィカルユーザインタフェースエージェント最適化
Graphical user interface agents optimization for visual instruction grounding using multi-modal artificial intelligence systems ( http://arxiv.org/abs/2407.01558v1 ) ライセンス: Link先を確認 | Tassnim Dardouri, Laura Minkova, Jessica López Espejel, Walid Dahhane, El Hassane Ettifouri, | (参考訳) ほとんどのインスタンス認識と画像理解ソリューションは、主に自然画像に焦点を当てている。
しかし、合成画像、より具体的には、GUI(Graphical User Interfaces)の画像は依然として限られている。
これにより、自律型コンピュータビジョン駆動人工知能(AI)エージェントの開発が妨げられる。
本稿では,GUIにおけるオブジェクト識別のためのマルチモーダルソリューションである検索命令コーディネート(SIC)を提案する。
より正確には、自然言語命令とGUIのスクリーンショットが与えられたら、SICは命令が実行される画面上のコンポーネントの座標を見つける。
この目的のために、我々は2つの方法を開発した。
最初の方法は3部構成のアーキテクチャで、LLM(Large Language Model)とオブジェクト検出モデルの組み合わせに依存している。
2つ目のアプローチは、マルチモーダル基盤モデルを使用する。
Most instance perception and image understanding solutions focus mainly on natural images. However, applications for synthetic images, and more specifically, images of Graphical User Interfaces (GUI) remain limited. This hinders the development of autonomous computer-vision-powered Artificial Intelligence (AI) agents. In this work, we present Search Instruction Coordinates or SIC, a multi-modal solution for object identification in a GUI. More precisely, given a natural language instruction and a screenshot of a GUI, SIC locates the coordinates of the component on the screen where the instruction would be executed. To this end, we develop two methods. The first method is a three-part architecture that relies on a combination of a Large Language Model (LLM) and an object detection model. The second approach uses a multi-modal foundation model. | 翻訳日:2024-07-22 22:28:39 公開日:2024-05-05 |
# コービッド19ケース予測線形モデルへの人体移動データ追加の有効性の体系的解析
Systematic analysis of the effectiveness of adding human mobility data to covid-19 case prediction linear models ( http://arxiv.org/abs/2407.10304v1 ) ライセンス: Link先を確認 | Saad Mohammad Abrar, Naman Awasthi, Daniel Smolyak, Vanessa Frias-Martinez, | (参考訳) 人間の移動性データは、コビッド19のケース予測モデルで広く利用されている。
それにもかかわらず、関連する研究は、モビリティデータが本当にそのような助けになるかどうかを疑問視している。
我々は、モビリティデータセットと予測ルックアヘッドの体系的な分析を行い、予測モデルにモビリティデータを追加することで、テスト期間の開始時に約2ヶ月でモデルパフォーマンスが向上し、予測値と非モビリティベースラインに対する実際の相関改善に対するパフォーマンス改善が少なくとも0.3であることが明らかにした。
Human mobility data has been extensively used in covid-19 case prediction models. Nevertheless, related work has questioned whether mobility data really helps that much. We present a systematic analysis across mobility datasets and prediction lookaheads and reveal that adding mobility data to predictive models improves model performance only for about two months at the onset of the testing period, and that performance improvements -- measured as predicted vs. actual correlation improvement over non-mobility baselines -- are at most 0.3. | 翻訳日:2024-07-22 12:59:07 公開日:2024-05-05 |
# 人工知能システムのための立法の要素
Elements Of Legislation For Artificial Intelligence Systems ( http://arxiv.org/abs/2407.10305v1 ) ライセンス: Link先を確認 | Anna Romanova, | (参考訳) 自律型企業管理システムの運用状況の重要な部分は、企業が運営する規制と法的環境である。
自律的な人工知能システムのための専門的な運用コンテキストを構築するために、ローカルな規制文書の表現を同時に2つのバージョンで示すことができる。
この場合、人工知能システムは、そのようなシステムが要求される標準内で機能を実行することができるように、明確に定義された運用コンテキストを得る。
個人と自律人工知能システムの共同作業の基礎となる地方規制は、自律システムの開発と実施を規定する関連する法律の基礎を形成することができる。
The significant part of the operational context for autonomous company management systems is the regulatory and legal environment in which corporations operate. In order to create a dedicated operational context for autonomous artificial intelligence systems, the wording of local regulatory documents can be simultaneously presented in two versions: for use by people and for use by autonomous systems. In this case, the artificial intelligence system will get a well-defined operational context that allows such a system to perform functions within the required standards. Local regulations that provide basis for the joint work of individuals and autonomous artificial intelligence systems can form the grounds for the relevant legislation governing the development and implementation of autonomous systems. | 翻訳日:2024-07-22 12:59:07 公開日:2024-05-05 |
# E-Scooter利用者の行動・生理的反応に及ぼすインフラ・交通シナリオの影響
Impact of Different Infrastructures and Traffic Scenarios on Behavioral and Physiological Responses of E-scooter Users ( http://arxiv.org/abs/2407.10310v1 ) ライセンス: Link先を確認 | Dong Chen, Arman Hosseini, Arik Smith, David Xiang, Arsalan Heydarian, Omid Shoghli, Bradford Campbell, | (参考訳) eスクータなどのマイクロモビリティ機器が世界的に普及するにつれて、世界中の救急医療機関が関連する負傷の傾向が強まっている。
しかし、e-Scooterの安全性に関する現在の研究の大部分は、調査、ニュースレポート、ベンダーのデータに大きく依存しており、ライダーの行動と生理的反応の影響を調査する自然主義的な研究はほとんどない。
そこで本稿は,e-Scooterユーザに対して,自然なライディング実験を通じて,異なるインフラやシナリオ下での応答について検討することを目的とする。
その結果,異なる速度分布,インフラ要素,交通シナリオがライディング・ダイナミクスに大きく影響していることが示唆された。
また, 速度変化のある地域を走行し, 専用のライディングスペースを持たない地域では, 電動スクーターの安全上の課題が増大していることが実験的に明らかになった。
この研究は、インフラ設計と電子スクーターの安全性への影響を検討することの重要性を強調し、今後都市計画や政策立案に影響を及ぼし、普及しているこれらの車両の安全性を高めるための洞察を提供する。
As micromobility devices such as e-scooters gain global popularity, emergency departments around the world have observed a rising trend in related injuries. However, the majority of current research on e-scooter safety relies heavily on surveys, news reports, and data from vendors, with a noticeable scarcity of naturalistic studies examining the effects of riders' behaviors and physiological responses. Therefore, this paper aims to study the responses of e-scooter users under different infrastructures and scenarios through naturalistic riding experiments. The findings indicate that different speed profiles, infrastructural elements, and traffic scenarios significantly influence riding dynamics. The experimental results also reveal that e-scooters face amplified safety challenges when navigating through areas with speed variations and without dedicated riding spaces. The study underscores the importance of considering infrastructure design and its influence on e-scooter safety, providing insights that could inform future urban planning and policy-making to enhance the safety of these increasingly popular vehicles. | 翻訳日:2024-07-22 12:59:07 公開日:2024-05-05 |
# ATG: 生成言語モデルのための自動定理生成のベンチマーク
ATG: Benchmarking Automated Theorem Generation for Generative Language Models ( http://arxiv.org/abs/2405.06677v1 ) ライセンス: Link先を確認 | Xiaohan Lin, Qingxing Cao, Yinya Huang, Zhicheng Yang, Zhengying Liu, Zhenguo Li, Xiaodan Liang, | (参考訳) 人間はより広範に複雑な数学的結果を探求するために新しい定理を開発することができる。
現在の生成言語モデル(LM)は、定理の自動証明において著しく改善されているが、新しいあるいは再利用可能な定理を生成する能力はいまだ探索されていない。
新しい定理がなければ、現在の LM は指数関数的に増加する探索空間の仮定から遠いより難しい定理を証明するのに苦労する。
そこで本研究では,エージェントが再利用可能な知識として証明された下流定理に適用可能な,価値ある(あるいは新しい)定理を自動生成できるかどうかを評価する,自動定理生成(ATG)ベンチマークを提案する。
具体的には,メタマスライブラリを公理,ライブラリ,問題の3つの集合に分割してATGベンチマークを構築する。
我々は、現在のLMが図書館内で定理を生成できるかどうかを検証し、問題定理の証明に役立てるために広範な実験を行う。
その結果、高品質ATGデータにより、下流ATP上でのモデルの性能が向上することが示されている。
しかし、現在のLMがより優れたATGを開発し、より先進的で人間的な定理を生成する余地は依然として残っている。
ATGの新たな挑戦が、高度な複雑な定理の証明に光を当ててくれることを願っている。
Humans can develop new theorems to explore broader and more complex mathematical results. While current generative language models (LMs) have achieved significant improvement in automatically proving theorems, their ability to generate new or reusable theorems is still under-explored. Without the new theorems, current LMs struggle to prove harder theorems that are distant from the given hypotheses with the exponentially growing search space. Therefore, this paper proposes an Automated Theorem Generation (ATG) benchmark that evaluates whether an agent can automatically generate valuable (and possibly brand new) theorems that are applicable for downstream theorem proving as reusable knowledge. Specifically, we construct the ATG benchmark by splitting the Metamath library into three sets: axioms, library, and problem based on their proving depth. We conduct extensive experiments to investigate whether current LMs can generate theorems in the library and benefit the problem theorems proving. The results demonstrate that high-quality ATG data facilitates models' performances on downstream ATP. However, there is still room for current LMs to develop better ATG and generate more advanced and human-like theorems. We hope the new ATG challenge can shed some light on advanced complex theorem proving. | 翻訳日:2024-05-27 03:27:39 公開日:2024-05-05 |
# 数学的推論における大規模言語モデルの構成的欠陥の探索
Exploring the Compositional Deficiency of Large Language Models in Mathematical Reasoning ( http://arxiv.org/abs/2405.06680v1 ) ライセンス: Link先を確認 | Jun Zhao, Jingqi Tong, Yurong Mou, Ming Zhang, Qi Zhang, Xuanjing Huang, | (参考訳) 人間の認知は体系的な構成性を示し、有限の学習された要素から無限の新しい組み合わせを生成する代数的能力は、複雑な論理について理解し、推論する鍵となる。
本研究では,大規模言語モデル(LLM)の数学的推論における構成性について検討する。
具体的には、MATH と GSM8k の問題記述に慎重に設計された論理的トラップを導入することで、新しいデータセット textsc{MathTrap}\footnotemark[3] を構築する。
論理的欠陥の問題は実世界では非常に稀であるため、これらは''unseen' の場合を LLM に表す。
これらを解決するためには、(1)原問題に関わる数学的知識と(2)導入したトラップに関する知識を体系的に構成する必要がある。
実験の結果, LLM には必要知識の双方の構成要素があるが, それらを組み合わせてこれらの新規事例を扱うことはできないことがわかった。
我々は、自然言語プロンプト、数発のデモ、微調整など、この欠損を緩和するいくつかの方法を探究する。
以上の外部介入により LLM のパフォーマンスを \textbf{passively} で改善できることがわかった。
全体として、体系的な構成性は大きな言語モデルにとってオープンな課題である。
Human cognition exhibits systematic compositionality, the algebraic ability to generate infinite novel combinations from finite learned components, which is the key to understanding and reasoning about complex logic. In this work, we investigate the compositionality of large language models (LLMs) in mathematical reasoning. Specifically, we construct a new dataset \textsc{MathTrap}\footnotemark[3] by introducing carefully designed logical traps into the problem descriptions of MATH and GSM8k. Since problems with logical flaws are quite rare in the real world, these represent ``unseen'' cases to LLMs. Solving these requires the models to systematically compose (1) the mathematical knowledge involved in the original problems with (2) knowledge related to the introduced traps. Our experiments show that while LLMs possess both components of requisite knowledge, they do not \textbf{spontaneously} combine them to handle these novel cases. We explore several methods to mitigate this deficiency, such as natural language prompts, few-shot demonstrations, and fine-tuning. We find that LLMs' performance can be \textbf{passively} improved through the above external intervention. Overall, systematic compositionality remains an open challenge for large language models. | 翻訳日:2024-05-27 03:27:39 公開日:2024-05-05 |
# フィードバック改善のための講義内容の活用:GPT-4と検索拡張生成による探索
Leveraging Lecture Content for Improved Feedback: Explorations with GPT-4 and Retrieval Augmented Generation ( http://arxiv.org/abs/2405.06681v1 ) ライセンス: Link先を確認 | Sven Jacobs, Steffen Jaschke, | (参考訳) 本稿では,大規模言語モデルによるプログラミングタスクのフィードバックを改善するためにRAG(Retrieval Augmented Generation)を提案する。
この目的のために、対応する講義記録を転写し、RAGを用いてタイムスタンプと共に外部知識源としてLarge Language Model GPT-4に提供した。
この目的は、幻覚を予防し、講義の技術的用語やフレーズの使用を強制することである。
プログラミング入門講座のプログラミング問題を解くために開発された演習プラットフォームにおいて,学生はGPT-4で生成したソリューションに対するフィードバックを要求できる。
このタスクのために、GPT-4は、学生のコードソリューション、コンパイラ出力、ユニットテストの結果、RAGを付加コンテキストとして使用することで利用可能な講義ノートからの関連パスを受信する。
GPT-4 が生み出したフィードバックは,学習者が個別に問題を解き,講義内容にリンクするように指導し,そのタイムスタンプをメタ情報として利用する。
このようにして、対応する講義映像を対応する位置に即座に見ることができる。
評価のために、学生はワークショップでツールを使って作業し、RAGによって拡張されるべきか否かを各フィードバックで判断した。
アンケートと収集した利用データから,RAGの使用によりフィードバック生成が向上し,一部の状況では学生が好むことが示唆された。
フィードバック生成の速度が遅いため、そのメリットは状況によって異なります。
This paper presents the use of Retrieval Augmented Generation (RAG) to improve the feedback generated by Large Language Models for programming tasks. For this purpose, corresponding lecture recordings were transcribed and made available to the Large Language Model GPT-4 as external knowledge source together with timestamps as metainformation by using RAG. The purpose of this is to prevent hallucinations and to enforce the use of the technical terms and phrases from the lecture. In an exercise platform developed to solve programming problems for an introductory programming lecture, students can request feedback on their solutions generated by GPT-4. For this task GPT-4 receives the students' code solution, the compiler output, the result of unit tests and the relevant passages from the lecture notes available through the use of RAG as additional context. The feedback generated by GPT-4 should guide students to solve problems independently and link to the lecture content, using the time stamps of the transcript as meta-information. In this way, the corresponding lecture videos can be viewed immediately at the corresponding positions. For the evaluation, students worked with the tool in a workshop and decided for each feedback whether it should be extended by RAG or not. First results based on a questionnaire and the collected usage data show that the use of RAG can improve feedback generation and is preferred by students in some situations. Due to the slower speed of feedback generation, the benefits are situation dependent. | 翻訳日:2024-05-27 03:27:39 公開日:2024-05-05 |
# LLM剤の自己反射:問題溶解性能への影響
Self-Reflection in LLM Agents: Effects on Problem-Solving Performance ( http://arxiv.org/abs/2405.06682v1 ) ライセンス: Link先を確認 | Matthew Renze, Erhan Guven, | (参考訳) 本研究では,大規模言語モデル(LLM)における自己回帰が問題解決性能に及ぼす影響について検討した。
我々は9つの人気のあるLCMに対して,パフォーマンスベースラインを提供するために,複数の質問に回答するように指示した。
各質問に対して, 誤りを反映し, 問題解決のためのガイダンスを提供するために, 8種類の自己表現型LLMエージェントを指示した。
そして、このガイダンスを用いて、各自己表現エージェントは、同じ質問を再回答しようと試みた。
以上の結果から, LLM エージェントは自己回帰 (0.001$) により, 問題解決性能を著しく向上させることができることが示唆された。
さらに,各種の自己回帰を比較検討し,個人による演奏への貢献度について検討した。
すべてのコードとデータはGitHubでhttps://github.com/matthewrenze/self-reflectionで公開されている。
In this study, we investigated the effects of self-reflection in large language models (LLMs) on problem-solving performance. We instructed nine popular LLMs to answer a series of multiple-choice questions to provide a performance baseline. For each incorrectly answered question, we instructed eight types of self-reflecting LLM agents to reflect on their mistakes and provide themselves with guidance to improve problem-solving. Then, using this guidance, each self-reflecting agent attempted to re-answer the same questions. Our results indicate that LLM agents are able to significantly improve their problem-solving performance through self-reflection ($p < 0.001$). In addition, we compared the various types of self-reflection to determine their individual contribution to performance. All code and data are available on GitHub at https://github.com/matthewrenze/self-reflection | 翻訳日:2024-05-27 03:17:55 公開日:2024-05-05 |
# LIFL: フェデレーションラーニングのための軽量でイベント駆動のサーバレスプラットフォーム
LIFL: A Lightweight, Event-driven Serverless Platform for Federated Learning ( http://arxiv.org/abs/2405.10968v1 ) ライセンス: Link先を確認 | Shixiong Qi, K. K. Ramakrishnan, Myungjin Lee, | (参考訳) フェデレートラーニング(FL)は通常、個々のユーザデバイス/サーバのトレーニングモデルをローカルに配置した大規模分散システムを伴い、信頼された中央サーバ上でモデル更新を集約する。
FLの既存のシステムは、しばしばモデルアグリゲーションに常時オンのサーバーを使用するが、資源利用の面では非効率である。
また、資源管理にも非弾性である可能性がある。
これは、多数の異種ユーザデバイス/サーバを持つ非常にダイナミックな環境で、モデルが大規模に更新されると、特に悪化する。
本稿では,大規模で効率的なFLアグリゲーションを実現するための,きめ細かいリソース管理機能を備えた軽量で柔軟なサーバレスクラウドプラットフォームLIFLを提案する。
LIFLは、個々のヘビーウェイトメッセージブローカを排除し、非効率なコンテナベースのサイドカーを軽量なEBPFベースのプロキシに置き換える、合理化されたイベント駆動のサーバレス設計によって強化されている。
FLアグリゲーションを高速化するために一般的に用いられる階層的アグリゲーションのための高性能な通信を実現するために,共有メモリ処理を利用する。
さらに、共有メモリ処理の利点を最大化するために、LIFLの局所性を考慮した配置を導入する。
LIFLは、階層的なアグリゲーションのためのリソースを正確にスケールし、注意深く再利用し、アグリゲーション時間とリソース消費を最小限にしつつ、最も高い並列性を達成する。
実験の結果,LIFLは既存のサーバフルおよびサーバーレスのFLシステムと比較して,FLを大規模にサポートするための資源効率と集約速度を大幅に向上することがわかった。
Federated Learning (FL) typically involves a large-scale, distributed system with individual user devices/servers training models locally and then aggregating their model updates on a trusted central server. Existing systems for FL often use an always-on server for model aggregation, which can be inefficient in terms of resource utilization. They may also be inelastic in their resource management. This is particularly exacerbated when aggregating model updates at scale in a highly dynamic environment with varying numbers of heterogeneous user devices/servers. We present LIFL, a lightweight and elastic serverless cloud platform with fine-grained resource management for efficient FL aggregation at scale. LIFL is enhanced by a streamlined, event-driven serverless design that eliminates the individual heavy-weight message broker and replaces inefficient container-based sidecars with lightweight eBPF-based proxies. We leverage shared memory processing to achieve high-performance communication for hierarchical aggregation, which is commonly adopted to speed up FL aggregation at scale. We further introduce locality-aware placement in LIFL to maximize the benefits of shared memory processing. LIFL precisely scales and carefully reuses the resources for hierarchical aggregation to achieve the highest degree of parallelism while minimizing the aggregation time and resource consumption. Our experimental results show that LIFL achieves significant improvement in resource efficiency and aggregation speed for supporting FL at scale, compared to existing serverful and serverless FL systems. | 翻訳日:2024-05-27 03:17:55 公開日:2024-05-05 |
# ClothPPO: 行動空間を考慮したロボット衣服操作のためのポリシー最適化フレームワーク
ClothPPO: A Proximal Policy Optimization Enhancing Framework for Robotic Cloth Manipulation with Observation-Aligned Action Spaces ( http://arxiv.org/abs/2405.04549v1 ) ライセンス: Link先を確認 | Libing Yang, Yang Li, Long Chen, | (参考訳) ビジョンベースのロボット布の展開は、最近大きな進歩を遂げた。
しかしながら、事前の作業は主に価値学習に依存しており、ポリシーベースのテクニックを十分に検討していない。
近年,大規模言語モデルを用いた強化学習の成功により,政策勾配アルゴリズムは巨大な行動空間を持つ政策を向上できることが示された。
本稿では,アクタ-クリティックアーキテクチャに基づくポリシー勾配アルゴリズムを用いて,服の展開作業における観察に合わせた巨大な10^6アクション空間を持つ事前学習モデルを強化するフレームワークであるClathPPOを紹介する。
この目的のために,布の操作問題を部分的に観察可能なマルコフ決定プロセスとして再定義する。
政策のベースラインモデルをトレーニングするために、教師付き事前訓練ステージが使用される。
第2段階では、PPO(Proximal Policy Optimization)を用いて、観察整列された行動空間内の教師付きモデルを導出する。
この戦略を最適化し,更新することにより,ソフトボディ操作作業下で展開する布地の表面積を増大させる手法を提案する。
実験の結果,提案するフレームワークは,他の最先端手法の展開性能をさらに向上させることができることがわかった。
Vision-based robotic cloth unfolding has made great progress recently. However, prior works predominantly rely on value learning and have not fully explored policy-based techniques. Recently, the success of reinforcement learning on the large language model has shown that the policy gradient algorithm can enhance policy with huge action space. In this paper, we introduce ClothPPO, a framework that employs a policy gradient algorithm based on actor-critic architecture to enhance a pre-trained model with huge 10^6 action spaces aligned with observation in the task of unfolding clothes. To this end, we redefine the cloth manipulation problem as a partially observable Markov decision process. A supervised pre-training stage is employed to train a baseline model of our policy. In the second stage, the Proximal Policy Optimization (PPO) is utilized to guide the supervised model within the observation-aligned action space. By optimizing and updating the strategy, our proposed method increases the garment's surface area for cloth unfolding under the soft-body manipulation task. Experimental results show that our proposed framework can further improve the unfolding performance of other state-of-the-art methods. | 翻訳日:2024-05-09 16:14:28 公開日:2024-05-05 |
# 算数方程式学習のための認知的アーキテクチャの探索
Exploring a Cognitive Architecture for Learning Arithmetic Equations ( http://arxiv.org/abs/2405.04550v1 ) ライセンス: Link先を確認 | Cole Gawin, | (参考訳) 算術的スキルの習得と、加算、減算、乗算、除算といった基本的な操作は、日々の機能に不可欠であり、複雑な認知過程を反映している。
本稿では,これらのスキルの獲得をシミュレートする神経生物学的に妥当な認知アーキテクチャを提示し,算術学習を支える認知メカニズムについて考察する。
数ベクトル化埋め込みネットワークと連想記憶モデルを実装し,人間の脳に類似した方法で知能系が算術方程式を学習し,記憶する方法について検討する。
本稿では,コネクショニストモデルの一般化能力,ジスカリアの神経学的原因,ネットワークアーキテクチャが認知能力に与える影響について考察する。
この学際的な調査を通じて,知能システムにおける数学的認知の神経的相関に関する継続的な研究に貢献することを目指している。
The acquisition and performance of arithmetic skills and basic operations such as addition, subtraction, multiplication, and division are essential for daily functioning, and reflect complex cognitive processes. This paper explores the cognitive mechanisms powering arithmetic learning, presenting a neurobiologically plausible cognitive architecture that simulates the acquisition of these skills. I implement a number vectorization embedding network and an associative memory model to investigate how an intelligent system can learn and recall arithmetic equations in a manner analogous to the human brain. I perform experiments that provide insights into the generalization capabilities of connectionist models, neurological causes of dyscalculia, and the influence of network architecture on cognitive performance. Through this interdisciplinary investigation, I aim to contribute to ongoing research into the neural correlates of mathematical cognition in intelligent systems. | 翻訳日:2024-05-09 16:14:28 公開日:2024-05-05 |
# 効率的な画像検索のための多重コードハッシュ
Multiple Code Hashing for Efficient Image Retrieval ( http://arxiv.org/abs/2008.01503v2 ) ライセンス: Link先を確認 | Ming-Wei Li, Qing-Yuan Jiang, Wu-Jun Li, | (参考訳) ストレージコストが低く、クエリ速度が速いため、ハッシュは大規模な画像検索タスクで広く利用されている。
ハッシュバケット検索は、所定のハミング半径内にあるデータポイントを各クエリに返します。
しかし,既存のハッシュ法では,画像毎に1つのハッシュコードしか学習できないため,複雑なシナリオでハッシュバケット探索を満足できる検索性能が得られない。
より具体的には、1つの画像を表すために1つのハッシュコードを使用することで、既存のメソッドは、画像の意味情報が複雑である場合に、クエリにハミング距離を小さくして、類似したイメージペアをバケットに配置できない可能性がある。
その結果、学習したコードに基づいて、類似した画像を検索するために、多数のハッシュバケットを訪問する必要がある。
これによりハッシュバケット探索の効率が低下する。
本稿では,ハッシュバケット探索の性能向上を図るために,Multiple code hashing (MCH)と呼ばれる新しいハッシュフレームワークを提案する。
MCHの主な考え方は、画像の異なる領域を表す各コードで、各画像の複数のハッシュコードを学ぶことである。
さらに,MCHのパラメータを学習するための深層強化学習アルゴリズムを提案する。
我々の知る限りでは、画像検索において各画像に対する複数のハッシュコードを学習することを提案する最初の研究である。
実験により、MCHはハッシュバケット探索において、各画像について1つのハッシュコードのみを学習する既存の方法と比較して、大幅に改善できることが示されている。
Due to its low storage cost and fast query speed, hashing has been widely used in large-scale image retrieval tasks. Hash bucket search returns data points within a given Hamming radius to each query, which can enable search at a constant or sub-linear time cost. However, existing hashing methods cannot achieve satisfactory retrieval performance for hash bucket search in complex scenarios, since they learn only one hash code for each image. More specifically, by using one hash code to represent one image, existing methods might fail to put similar image pairs to the buckets with a small Hamming distance to the query when the semantic information of images is complex. As a result, a large number of hash buckets need to be visited for retrieving similar images, based on the learned codes. This will deteriorate the efficiency of hash bucket search. In this paper, we propose a novel hashing framework, called multiple code hashing (MCH), to improve the performance of hash bucket search. The main idea of MCH is to learn multiple hash codes for each image, with each code representing a different region of the image. Furthermore, we propose a deep reinforcement learning algorithm to learn the parameters in MCH. To the best of our knowledge, this is the first work that proposes to learn multiple hash codes for each image in image retrieval. Experiments demonstrate that MCH can achieve a significant improvement in hash bucket search, compared with existing methods that learn only one hash code for each image. | 翻訳日:2024-05-08 20:57:01 公開日:2024-05-05 |
# AIツールによるモバイルアプリケーションのユーザビリティ予測 - 大規模ユーザインターフェースモデルの台頭,チャンス,課題
Predicting the usability of mobile applications using AI tools: the rise of large user interface models, opportunities, and challenges ( http://arxiv.org/abs/2405.03716v1 ) ライセンス: Link先を確認 | Abdallah Namoun, Ahmed Alrehaili, Zaib Un Nisa, Hani Almoamari, Ali Tufail, | (参考訳) 本稿では,モバイルアプリケーションにおけるユーザインタフェースの生成とユーザビリティの予測を可能にする,いわゆるLUIM(Big User Interface Model)を提案する。
This article proposes the so-called large user interface models (LUIMs) to enable the generation of user interfaces and prediction of usability using artificial intelligence in the context of mobile applications. | 翻訳日:2024-05-08 18:34:09 公開日:2024-05-05 |
# ワンオンラインエージェントは、平均的なフィールドゲームを効果的に学習できる
A Single Online Agent Can Efficiently Learn Mean Field Games ( http://arxiv.org/abs/2405.03718v1 ) ライセンス: Link先を確認 | Chenyu Zhang, Xu Chen, Xuan Di, | (参考訳) 平均場ゲーム (MFGs) は大規模人口システムの振る舞いをモデル化するための有望なフレームワークである。
しかし、MFGの解決は、前向きの個体群進化と後向きのエージェントダイナミクスの結合によって困難になる可能性がある。
通常、平均場 Nash 平衡 (MFNE) を得るには、固定点反復 (FPI) と呼ばれる前方と後方のプロセスが交互に解かれる反復的アプローチが必要となる。
この方法は、空間領域全体にわたって完全に観察された人口伝播とエージェントダイナミクスを必要とするが、現実のシナリオでは現実的ではない。
この制限を克服するために,本研究では,オンラインサンプルを用いたMFNE学習を,状態-行動空間,報酬関数,遷移ダイナミクスの事前知識を伴わずに行うことのできる,新しいオンライン単エージェントモデルフリー学習方式を提案する。
具体的には、エージェントは、そのポリシーを値関数(Q)を介して更新し、同時に平均場状態(M)を評価し、同じ観察バッチを用いて評価する。
我々はこの学習方式の2つの変種を開発する: オフ・ポリティクスとオン・ポリティクスのQM反復である。
それらが効率的にFPIを近似していることが証明され、複雑性の保証が提供される。
数値実験により本手法の有効性を確認した。
Mean field games (MFGs) are a promising framework for modeling the behavior of large-population systems. However, solving MFGs can be challenging due to the coupling of forward population evolution and backward agent dynamics. Typically, obtaining mean field Nash equilibria (MFNE) involves an iterative approach where the forward and backward processes are solved alternately, known as fixed-point iteration (FPI). This method requires fully observed population propagation and agent dynamics over the entire spatial domain, which could be impractical in some real-world scenarios. To overcome this limitation, this paper introduces a novel online single-agent model-free learning scheme, which enables a single agent to learn MFNE using online samples, without prior knowledge of the state-action space, reward function, or transition dynamics. Specifically, the agent updates its policy through the value function (Q), while simultaneously evaluating the mean field state (M), using the same batch of observations. We develop two variants of this learning scheme: off-policy and on-policy QM iteration. We prove that they efficiently approximate FPI, and a sample complexity guarantee is provided. The efficacy of our methods is confirmed by numerical experiments. | 翻訳日:2024-05-08 18:34:09 公開日:2024-05-05 |
# 単純MLPを用いた空間移動学習
Spatial Transfer Learning with Simple MLP ( http://arxiv.org/abs/2405.03720v1 ) ライセンス: Link先を確認 | Hongjian Yang, | (参考訳) 空間統計学分野に適用された移動学習の可能性を探る第一歩
First step to investigate the potential of transfer learning applied to the field of spatial statistics | 翻訳日:2024-05-08 18:24:15 公開日:2024-05-05 |
# BetterNet: 残留学習と精度ポリプセグメンテーションのための注意力を備えた効率的なCNNアーキテクチャ
BetterNet: An Efficient CNN Architecture with Residual Learning and Attention for Precision Polyp Segmentation ( http://arxiv.org/abs/2405.04288v1 ) ライセンス: Link先を確認 | Owen Singh, Sandeep Singh Sengar, | (参考訳) 大腸癌は癌関連死亡率に大きく寄与する。
大腸内視鏡検査によるポリープのタイムリーな同定と除去は死亡率の低下に不可欠である。
大腸内視鏡像におけるポリープの正確な検出は, サイズ, 形状, テクスチャ, 周囲の組織との類似性などの特徴の違いから困難である。
現在のディープラーニング手法では、セグメント化に必要な長距離接続の取得が困難であることが多い。
本研究では,ポリプセグメンテーションの精度を高めるために,残差学習と注意法を組み合わせた畳み込みニューラルネットワーク(CNN)アーキテクチャであるBetterNetを提案する。
主な特徴は(1)効率的な勾配伝播とマルチスケール特徴の統合を容易にする残留デコーダアーキテクチャである。
2)デコーダブロック内のチャネルおよび空間的注意ブロックは,ポリプ領域の学習過程に集中する。
(3) 計算効率を保ちつつ, ポリプセグメンテーションベンチマークにおける最先端性能を実現すること。
(4) 建築要素の影響を確認するため, 徹底的なアブレーション試験が実施されている。
(5) モデルコードは、さらなるコントリビューションのためにオープンソースとして公開されている。
Kvasir-SEG、CVC ClinicalDB、Endoscene、EndoTect、Kvasir-Sessileなどのデータセットで実施された大規模な評価は、BetterNetsが大きなマージンによるセグメンテーション精度で、現在のSOTAモデルより優れていることを示している。
軽量な設計は、様々なアプリケーションに対してリアルタイムな推論を可能にする。
BetterNetは、ポリープの検出と癌の早期認識を強化するために、コンピュータ支援診断技術を統合することを約束している。
コードへのリンク: https://github.com/itsOwen/BetterNet
Colorectal cancer contributes significantly to cancer-related mortality. Timely identification and elimination of polyps through colonoscopy screening is crucial in order to decrease mortality rates. Accurately detecting polyps in colonoscopy images is difficult because of the differences in characteristics such as size, shape, texture, and similarity to surrounding tissues. Current deep-learning methods often face difficulties in capturing long-range connections necessary for segmentation. This research presents BetterNet, a convolutional neural network (CNN) architecture that combines residual learning and attention methods to enhance the accuracy of polyp segmentation. The primary characteristics encompass (1) a residual decoder architecture that facilitates efficient gradient propagation and integration of multiscale features. (2) channel and spatial attention blocks within the decoder block to concentrate the learning process on the relevant areas of polyp regions. (3) Achieving state-of-the-art performance on polyp segmentation benchmarks while still ensuring computational efficiency. (4) Thorough ablation tests have been conducted to confirm the influence of architectural components. (5) The model code has been made available as open-source for further contribution. Extensive evaluations conducted on datasets such as Kvasir-SEG, CVC ClinicDB, Endoscene, EndoTect, and Kvasir-Sessile demonstrate that BetterNets outperforms current SOTA models in terms of segmentation accuracy by significant margins. The lightweight design enables real-time inference for various applications. BetterNet shows promise in integrating computer-assisted diagnosis techniques to enhance the detection of polyps and the early recognition of cancer. Link to the code: https://github.com/itsOwen/BetterNet | 翻訳日:2024-05-08 14:10:19 公開日:2024-05-05 |
# LIBRA:大規模AIモデルの分散トレーニングのためのワークロード対応多次元ネットワークトポロジ最適化
LIBRA: Enabling Workload-aware Multi-dimensional Network Topology Optimization for Distributed Training of Large AI Models ( http://arxiv.org/abs/2109.11762v2 ) ライセンス: Link先を確認 | William Won, Saeed Rashidi, Sudarshan Srinivasan, Tushar Krishna, | (参考訳) 機械学習のモデルサイズが拡大し続けるにつれて、各デバイス内のモデルウェイトに対応し、トレーニング時間を短縮するためには、分散トレーニングが必要である。
しかし、これはグラデーションとアクティベーションの交換による通信オーバーヘッドの増大によるものであり、エンドツーエンドのトレーニングプロセスの重大なボトルネックとなっている。
本研究では,機械学習システムにおける多次元ネットワークの設計を,ネットワーク全体の帯域幅を向上させるためのコスト効率のメカニズムとして動機づける。
また,効率的な資源利用を確保するため,多次元ネットワークにおいて最適な帯域幅割り当てが重要であることも確認した。
多次元ファブリックアーキテクチャの最適化に特化したフレームワークであるLIBRAを紹介する。
ケーススタディを通じて、多種多様な制約下で最適化されたファブリックを設計し、協調最適化の機会を実現することにおいて、LIBRAの価値を実証する。
As model sizes in machine learning continue to scale, distributed training is necessary to accommodate model weights within each device and to reduce training time. However, this comes with the expense of increased communication overhead due to the exchange of gradients and activations, which become the critical bottleneck of the end-to-end training process. In this work, we motivate the design of multi-dimensional networks within machine learning systems as a cost-efficient mechanism to enhance overall network bandwidth. We also identify that optimal bandwidth allocation is pivotal for multi-dimensional networks to ensure efficient resource utilization. We introduce LIBRA, a framework specifically focused on optimizing multi-dimensional fabric architectures. Through case studies, we demonstrate the value of LIBRA, both in architecting optimized fabrics under diverse constraints and in enabling co-optimization opportunities. | 翻訳日:2024-05-08 03:57:05 公開日:2024-05-05 |
# 学習の共有と共有の学習 : メタラーニング、マルチタスクラーニング、トランスファーラーニングを融合したメタレビュー
Sharing to learn and learning to share; Fitting together Meta-Learning, Multi-Task Learning, and Transfer Learning: A meta review ( http://arxiv.org/abs/2111.12146v7 ) ライセンス: Link先を確認 | Richa Upadhyay, Ronald Phlypo, Rajkumar Saini, Marcus Liwicki, | (参考訳) 異なるドメイン間で知識を統合することは、人間の学習の重要な特徴である。
トランスファーラーニング、メタラーニング、マルチタスクラーニングといった学習パラダイムは、従来の知識を新しいタスクに活用することで人間の学習プロセスを反映し、より高速な学習と新しいタスクの優れた一般化を促進する。
本稿は、これらの学習パラダイムとその比較分析について、詳細な知見を提供する。
ある学習アルゴリズムの弱点は、他の学習アルゴリズムの強みであることが判明した。
多くの研究論文がこれらの学習パラダイムを個別に取り上げ、それらの概要を概観している。
しかし,本稿では,これら2つの学習アルゴリズムを組み合わせた研究についてレビューする。
この調査では、コンピュータビジョン、自然言語処理、ハイパースペクトルイメージングなど、さまざまな研究分野の問題を解決するためにこれらの技術を組み合わせる方法について解説する。
文献から蓄積した知識に基づいて,メタラーニング,トランスファーラーニング,マルチタスクラーニングという,汎用的なタスク非依存型およびモデル非依存型学習ネットワークを仮定する。
また,提案するネットワークについて,いくつかのオープンな研究課題,制限,今後の研究方向性を提示する。
本稿の目的は、既存の学習アルゴリズムを効果的に融合させ、この分野の研究を進めることを目的とした研究者の間での関心を喚起することである。
実験結果を提示する代わりに、私たちは読者にアルゴリズムをマージする技術を探求し、熟考し、その限界をナビゲートするように促します。
Integrating knowledge across different domains is an essential feature of human learning. Learning paradigms such as transfer learning, meta learning, and multi-task learning reflect the human learning process by exploiting the prior knowledge for new tasks, encouraging faster learning and good generalization for new tasks. This article gives a detailed view of these learning paradigms and their comparative analysis. The weakness of one learning algorithm turns out to be a strength of another, and thus, merging them is a prevalent trait in the literature. Numerous research papers focus on each of these learning paradigms separately and provide a comprehensive overview of them. However, this article reviews research studies that combine (two of) these learning algorithms. This survey describes how these techniques are combined to solve problems in many different fields of research, including computer vision, natural language processing, hyper-spectral imaging, and many more, in a supervised setting only. Based on the knowledge accumulated from the literature, we hypothesize a generic task-agnostic and model-agnostic learning network - an ensemble of meta learning, transfer learning, and multi-task learning, termed Multi-modal Multi-task Meta Transfer Learning. We also present some open research questions, limitations, and future research directions for this proposed network. The aim of this article is to spark interest among scholars in effectively merging existing learning algorithms with the intention of advancing research in this field. Instead of presenting experimental results, we invite readers to explore and contemplate techniques for merging algorithms while navigating through their limitations. | 翻訳日:2024-05-08 03:57:05 公開日:2024-05-05 |
# 医用自動符号化における深層学習の統一的検討
A Unified Review of Deep Learning for Automated Medical Coding ( http://arxiv.org/abs/2201.02797v4 ) ライセンス: Link先を確認 | Shaoxiong Ji, Wei Sun, Xiaobo Li, Hang Dong, Ara Taalas, Yijia Zhang, Honghan Wu, Esa Pitkänen, Pekka Marttinen, | (参考訳) 医療の運用と提供に不可欠な医療コードの自動作成は、臨床文書から医療コードを予測することによって、構造化されていないデータを管理可能にする。
近年のディープラーニングと自然言語処理の進歩がこの課題に広く応用されている。
しかし、ディープラーニングベースの医療コーディングでは、ニューラルネットワークアーキテクチャの設計の統一的なビューが欠如している。
本稿では,医学的コーディングモデルの構築ブロックを総合的に理解するための統一的なフレームワークを提案し,提案フレームワークに基づく最近の高度なモデルを要約する。
統合されたフレームワークは、テキスト特徴抽出のためのエンコーダモジュール、ディープエンコーダアーキテクチャを構築するためのメカニズム、隠れた表現を医療コードに変換するデコーダモジュール、補助情報の使用の4つの主要コンポーネントに分解する。
最後に、ベンチマークと実世界の利用について紹介し、主要な研究課題と今後の方向性について論じる。
Automated medical coding, an essential task for healthcare operation and delivery, makes unstructured data manageable by predicting medical codes from clinical documents. Recent advances in deep learning and natural language processing have been widely applied to this task. However, deep learning-based medical coding lacks a unified view of the design of neural network architectures. This review proposes a unified framework to provide a general understanding of the building blocks of medical coding models and summarizes recent advanced models under the proposed framework. Our unified framework decomposes medical coding into four main components, i.e., encoder modules for text feature extraction, mechanisms for building deep encoder architectures, decoder modules for transforming hidden representations into medical codes, and the usage of auxiliary information. Finally, we introduce the benchmarks and real-world usage and discuss key research challenges and future directions. | 翻訳日:2024-05-08 03:57:05 公開日:2024-05-05 |
# 半スーパーバイバル・ロバストPAC学習性の評価
A Characterization of Semi-Supervised Adversarially-Robust PAC Learnability ( http://arxiv.org/abs/2202.05420v3 ) ライセンス: Link先を確認 | Idan Attias, Steve Hanneke, Yishay Mansour, | (参考訳) 本研究では、半教師付きPACモデルにおいて、時間攻撃をテストするために、逆向きに頑健な予測器を学習する問題について検討する。
学習を確実にするためにラベル付き、ラベルなしの例がいくつ必要かという問題に対処する。
十分なラベル付きデータ(完全教師付き手法が要求するラベル付きサンプルのサイズ)を持つことで、ラベル付きサンプルの複雑さは以前の研究と比べて任意に小さくなり、異なる複雑さ尺度によって著しく特徴付けられることを示す。
我々はこのサンプルの複雑さについて,上界と下界にほぼ一致することを証明した。
これは、最悪の場合の分布自由モデルにおいても、半教師付き頑健な学習には大きな利点があることを示し、標準的な非ロバストなPAC学習では保持できない、教師付きラベルと半教師付きラベルの複雑さのギャップを確立する。
We study the problem of learning an adversarially robust predictor to test time attacks in the semi-supervised PAC model. We address the question of how many labeled and unlabeled examples are required to ensure learning. We show that having enough unlabeled data (the size of a labeled sample that a fully-supervised method would require), the labeled sample complexity can be arbitrarily smaller compared to previous works, and is sharply characterized by a different complexity measure. We prove nearly matching upper and lower bounds on this sample complexity. This shows that there is a significant benefit in semi-supervised robust learning even in the worst-case distribution-free model, and establishes a gap between the supervised and semi-supervised label complexities which is known not to hold in standard non-robust PAC learning. | 翻訳日:2024-05-08 03:57:05 公開日:2024-05-05 |
# 投影パワー法による相関ガウスウィグナーモデルに対するシードグラフマッチング
Seeded graph matching for the correlated Gaussian Wigner model via the projected power method ( http://arxiv.org/abs/2204.04099v3 ) ライセンス: Link先を確認 | Ernesto Araya, Guillaume Braun, Hemant Tyagi, | (参考訳) emph{graph matching} 問題では、2つのグラフ $G,H$ を観測し、そのゴールは頂点間の割り当て(あるいはマッチング)を見つけることである。
ここでは、相関重み付きグラフの一般的なモデルであるCorrelated Gaussian Wigner (CGW) モデルから、観測されたペア $G,H$ が独立したガウス行列であり、G$ の各エッジは、パラメータ $\sigma\in [0,1)$ によって記述されたエッジ相関で、$H$ の1つのエッジと相関していると仮定する。
本稿では,初期部分的正マッチング(シードと呼ばれる)を副次情報として与えられるグラフマッチングアルゴリズムとして,PPM(emph{projected Power Method)の性能を解析する。
この結果から, 種子が接地構造マッチングに十分近い場合, 高い確率でPPMは種子を反復的に改良し, 地上構造マッチングを$\mathcal{O}(\log n)$繰り返しで回収することを示した。
以上の結果から, PPM は (Mao et al 2023) における (CER) モデルの解析を (dense) CGW モデルに拡張し, 一定の$\sigma$ のレギュレーションでも機能することが証明された。
我々の分析の副産物として、PPMフレームワークはシードグラフマッチングのための最先端アルゴリズムのいくつかを一般化する。
合成データに関する数値実験により理論的知見を補完する。
In the \emph{graph matching} problem we observe two graphs $G,H$ and the goal is to find an assignment (or matching) between their vertices such that some measure of edge agreement is maximized. We assume in this work that the observed pair $G,H$ has been drawn from the Correlated Gaussian Wigner (CGW) model -- a popular model for correlated weighted graphs -- where the entries of the adjacency matrices of $G$ and $H$ are independent Gaussians and each edge of $G$ is correlated with one edge of $H$ (determined by the unknown matching) with the edge correlation described by a parameter $\sigma\in [0,1)$. In this paper, we analyse the performance of the \emph{projected power method} (PPM) as a \emph{seeded} graph matching algorithm where we are given an initial partially correct matching (called the seed) as side information. We prove that if the seed is close enough to the ground-truth matching, then with high probability, PPM iteratively improves the seed and recovers the ground-truth matching (either partially or exactly) in $\mathcal{O}(\log n)$ iterations. Our results prove that PPM works even in regimes of constant $\sigma$, thus extending the analysis in (Mao et al. 2023) for the sparse Correlated Erdos-Renyi(CER) model to the (dense) CGW model. As a byproduct of our analysis, we see that the PPM framework generalizes some of the state-of-art algorithms for seeded graph matching. We support and complement our theoretical findings with numerical experiments on synthetic data. | 翻訳日:2024-05-08 03:49:02 公開日:2024-05-05 |
# 深層学習における視覚的注意方法:深部調査
Visual Attention Methods in Deep Learning: An In-Depth Survey ( http://arxiv.org/abs/2204.07756v3 ) ライセンス: Link先を確認 | Mohammed Hassanin, Saeed Anwar, Ibrahim Radwan, Fahad S Khan, Ajmal Mian, | (参考訳) 人間の認知システムにインスパイアされた注意は、特定の情報に対する人間の認知意識を模倣し、重要な詳細を増幅し、データの本質的な側面に焦点を当てるメカニズムである。
ディープラーニングは多くのアプリケーションのパフォーマンス向上に注意を払っています。
興味深いことに、同じアテンション設計は異なるデータモダリティを処理するのに適しており、簡単に大きなネットワークに組み込むことができる。
さらに、複数の補完的注意機構を1つのネットワークに組み込むことができる。
そのため、注目の技は極めて魅力的になってきている。
しかし、この文献は、深層モデルに注意を向ける研究者を導くための注意技術に関する包括的な調査を欠いている。
注意すべき点は、トレーニングデータと計算資源の面で要求されていることに加えて、トランスフォーマーは利用可能な多くのカテゴリのうち、単一のカテゴリのみを自己注意でカバーしていることだ。
このギャップを埋め、最も顕著な特徴によって分類し、50の注意技法の詳細な調査を行う。
注意機構の成功の背景にある基本的な概念を導入することで議論を始める。
次に,各注目カテゴリーの強みや限界,基本的構成要素,一次利用による基本的定式化,特にコンピュータビジョンへの応用について述べる。
また、注意機構に関する課題や一般のオープンな質問についても論じる。
最後に,今後の研究の方向性を深く検討することを推奨する。
ディープラーニングにおける視覚的注意法に関するすべての情報は、 \href{https://github.com/saeed-anwar/VisualAttention}{https://github.com/saeed-anwar/VisualAttention} で提供されている。
Inspired by the human cognitive system, attention is a mechanism that imitates the human cognitive awareness about specific information, amplifying critical details to focus more on the essential aspects of data. Deep learning has employed attention to boost performance for many applications. Interestingly, the same attention design can suit processing different data modalities and can easily be incorporated into large networks. Furthermore, multiple complementary attention mechanisms can be incorporated into one network. Hence, attention techniques have become extremely attractive. However, the literature lacks a comprehensive survey on attention techniques to guide researchers in employing attention in their deep models. Note that, besides being demanding in terms of training data and computational resources, transformers only cover a single category in self-attention out of the many categories available. We fill this gap and provide an in-depth survey of 50 attention techniques, categorizing them by their most prominent features. We initiate our discussion by introducing the fundamental concepts behind the success of the attention mechanism. Next, we furnish some essentials such as the strengths and limitations of each attention category, describe their fundamental building blocks, basic formulations with primary usage, and applications specifically for computer vision. We also discuss the challenges and general open questions related to attention mechanisms. Finally, we recommend possible future research directions for deep attention. All the information about visual attention methods in deep learning is provided at \href{https://github.com/saeed-anwar/VisualAttention}{https://github.com/saeed-anwar/VisualAttention} | 翻訳日:2024-05-08 03:49:02 公開日:2024-05-05 |
# ハイパーグラフ上の時間的帰納論理推論
Temporal Inductive Logic Reasoning over Hypergraphs ( http://arxiv.org/abs/2206.05051v2 ) ライセンス: Link先を確認 | Yuan Yang, Siheng Xiong, Ali Payani, James C Kerce, Faramarz Fekri, | (参考訳) 帰納論理推論は、データからパターンを一般化することを目的としたグラフ解析の基本的な課題である。
この課題は知識グラフ(KG)のような従来のグラフ表現において、帰納的論理プログラミング(ILP)のような手法を用いて広く研究されてきた。
既存のILP法は、静的事実と二項関係を持つKGからの学習を前提としている。
KG以外にも、プロシージャ命令やシーングラフ、プログラムの実行など、他のアプリケーションにもグラフ構造が広く存在している。
ILPはこれらの用途には有益であるが、これらのグラフに適用するのは自明なことではない。それらは、通常、タイムスタンプや n-ary 関係を含む KG よりも複雑であり、事実上時間的事象を伴うハイパーグラフの一種である。
本研究では,時間的インダクティブ論理推論(TILR)を提案する。
ハイパグラフ推論を実現するために,ハイパグラフの新しいグラフトラバース法であるマルチスタートランダムBウォークを導入する。
パス一貫性アルゴリズムと組み合わせることで、TILRは時間データと関係データの両方から論理規則を一般化することで学習する。
ハイパーグラフベンチマークの欠如に対処するため、YouCook2-HGとnuScenes-HGという2つの時間ハイパーグラフデータセットを作成し、リリースする。
これらのベンチマーク実験により、TILRは様々な強力なベースラインに対して優れた推論能力を発揮することが示された。
Inductive logic reasoning is a fundamental task in graph analysis, which aims to generalize patterns from data. This task has been extensively studied for traditional graph representations, such as knowledge graphs (KGs), using techniques like inductive logic programming (ILP). Existing ILP methods assume learning from KGs with static facts and binary relations. Beyond KGs, graph structures are widely present in other applications such as procedural instructions, scene graphs, and program executions. While ILP is beneficial for these applications, applying it to those graphs is nontrivial: they are more complex than KGs, which usually involve timestamps and n-ary relations, effectively a type of hypergraph with temporal events. In this work, we propose temporal inductive logic reasoning (TILR), an ILP method that reasons on temporal hypergraphs. To enable hypergraph reasoning, we introduce the multi-start random B-walk, a novel graph traversal method for hypergraphs. By combining it with a path-consistency algorithm, TILR learns logic rules by generalizing from both temporal and relational data. To address the lack of hypergraph benchmarks, we create and release two temporal hypergraph datasets: YouCook2-HG and nuScenes-HG. Experiments on these benchmarks demonstrate that TILR achieves superior reasoning capability over various strong baselines. | 翻訳日:2024-05-08 03:49:02 公開日:2024-05-05 |
# 実値関数の逆ロバストPAC学習性
Adversarially Robust PAC Learnability of Real-Valued Functions ( http://arxiv.org/abs/2206.12977v3 ) ライセンス: Link先を確認 | Idan Attias, Steve Hanneke, | (参考訳) 我々は,$\ell_p$ロスと任意の摂動セットによる回帰設定において,テスト時間逆行攻撃に対するロバスト性について検討した。
この設定では、どの関数クラスがPACを学習できるかという問題に対処する。
有限な脂肪散乱次元のクラスは、実現可能と不可知の両方で学習可能であることを示す。
さらに、凸関数クラスでは、それらが適切に学習可能である。
対照的に、いくつかの非凸関数クラスは不適切な学習アルゴリズムを必要とする。
本手法は, 対向的に頑健な試料圧縮スキームをファットシェイタリング次元で決定したサイズで構築することに基づく。
その過程で,実数値関数に対する新しい非依存的なサンプル圧縮方式を導入する。
We study robustness to test-time adversarial attacks in the regression setting with $\ell_p$ losses and arbitrary perturbation sets. We address the question of which function classes are PAC learnable in this setting. We show that classes of finite fat-shattering dimension are learnable in both realizable and agnostic settings. Moreover, for convex function classes, they are even properly learnable. In contrast, some non-convex function classes provably require improper learning algorithms. Our main technique is based on a construction of an adversarially robust sample compression scheme of a size determined by the fat-shattering dimension. Along the way, we introduce a novel agnostic sample compression scheme for real-valued functions, which may be of independent interest. | 翻訳日:2024-05-08 03:49:02 公開日:2024-05-05 |
# キューディットゲートのダイナミクスと最適制御パルスに対するスペクタモードの影響
Dynamics of qudit gates and effects of spectator modes on optimal control pulses ( http://arxiv.org/abs/2207.14006v2 ) ライセンス: Link先を確認 | A. Barış Özgüler, Joshua A. Job, | (参考訳) 高次元量子コンピューティングのための量子ゲートは、数値量子最適制御技術を用いて高精度に合成することができる。
大規模な回路はモジュールに分解され、各モジュール用に調整されたパルスは、quditコンパイラのプリミティブとして使用できる。
余剰モードの存在下で各モジュールのパルスを適用すれば、クロストークによる効果が低下する可能性がある。
本稿では,回路量子力学系(cQED)の量子力学をシミュレートすることで,この問題に対処する。
テストケースとして、単一量子SWAPゲートのパルスを分離して、それぞれがフォック状態にあるオブザーバモードの存在下で適用する。
我々は, 忠実度減衰の束縛として使用可能な, 実験的に関連するスケーリング公式を提供する。
以上の結果から, コンデンサモードの存在下では, 高忠実度単一量子ゲートが有用となるためには, コンデンサモードからの周波数シフトは, クーディットの非線形性の 0.1 % の$\lesssim でなければならないことがわかった。
Qudit gates for high-dimensional quantum computing can be synthesized with high precision using numerical quantum optimal control techniques. Large circuits are broken down into modules and the tailored pulses for each module can be used as primitives for a qudit compiler. Application of the pulses of each module in the presence of extra modes may decrease their effectiveness due to crosstalk. In this paper, we address this problem by simulating qudit dynamics for circuit quantum electrodynamics (cQED) systems. As a test case, we take pulses for single-qudit SWAP gates optimized in isolation and then apply them in the presence of spectator modes each of which are in Fock states. We provide an experimentally relevant scaling formula that can be used as a bound on the fidelity decay. Our results show that frequency shift from spectator mode populations has to be $\lesssim 0.1\%$ of the qudit's nonlinearity in order for high-fidelity single-qudit gates to be useful in the presence of occupied spectator modes. | 翻訳日:2024-05-08 03:39:13 公開日:2024-05-05 |
# 形態素を考慮した対話型キーポイント推定
Morphology-Aware Interactive Keypoint Estimation ( http://arxiv.org/abs/2209.07163v2 ) ライセンス: Link先を確認 | Jinhee Kim, Taesung Kim, Taewoo Kim, Jaegul Choo, Dong-Wook Kim, Byungduk Ahn, In-Seok Song, Yoon-Ji Kim, | (参考訳) X線画像のような医療画像に基づく診断は、しばしば解剖学的キーポイントのマニュアルアノテーションを含む。
しかし、このプロセスは人間の多大な努力を伴い、診断プロセスにおいてボトルネックとなる可能性がある。
この手順を完全に自動化するために、深層学習に基づく手法が広く提案され、医用画像のキーポイントの検出において高い性能を達成している。
しかし、これらの手法には臨床上の限界があり、すべてのケースで正確性を保証することは不可能であり、医師がモデルの予測をダブルチェックする必要がある。
そこで本研究では,X線画像を用いて,医師が手動による修正よりも少ないクリックで誤予測キーポイントを修正可能なユーザ対話システムを通じて,解剖学的キーポイントを自動的に検出・洗練する,新しいディープニューラルネットワークを提案する。
収集したデータとAASCEデータセットを用いて,提案手法の有効性を示す。
私たちのアプローチのデモビデオは、プロジェクトのWebページで公開されています。
Diagnosis based on medical images, such as X-ray images, often involves manual annotation of anatomical keypoints. However, this process involves significant human efforts and can thus be a bottleneck in the diagnostic process. To fully automate this procedure, deep-learning-based methods have been widely proposed and have achieved high performance in detecting keypoints in medical images. However, these methods still have clinical limitations: accuracy cannot be guaranteed for all cases, and it is necessary for doctors to double-check all predictions of models. In response, we propose a novel deep neural network that, given an X-ray image, automatically detects and refines the anatomical keypoints through a user-interactive system in which doctors can fix mispredicted keypoints with fewer clicks than needed during manual revision. Using our own collected data and the publicly available AASCE dataset, we demonstrate the effectiveness of the proposed method in reducing the annotation costs via extensive quantitative and qualitative results. A demo video of our approach is available on our project webpage. | 翻訳日:2024-05-08 03:39:13 公開日:2024-05-05 |
# 逆強化学習のための環境設計
Environment Design for Inverse Reinforcement Learning ( http://arxiv.org/abs/2210.14972v2 ) ライセンス: Link先を確認 | Thomas Kleine Buening, Victor Villin, Christos Dimitrakakis, | (参考訳) デモンストレーションから報酬関数を学ぶことは、サンプル効率の低下に悩まされる。
豊富なデータであっても、単一の環境からの学習に焦点を当てた現在の逆強化学習手法は、環境ダイナミクスのわずかな変化に対処できない可能性がある。
適応環境設計を通じてこれらの課題に取り組む。
本フレームワークでは,学習者が専門家と繰り返し対話し,その環境における専門家のデモンストレーションから,報酬関数をできるだけ早く識別するために,前者の選択環境と対話する。
その結果,サンプル効率とロバスト性の両方の改善が得られた。
Learning a reward function from demonstrations suffers from low sample-efficiency. Even with abundant data, current inverse reinforcement learning methods that focus on learning from a single environment can fail to handle slight changes in the environment dynamics. We tackle these challenges through adaptive environment design. In our framework, the learner repeatedly interacts with the expert, with the former selecting environments to identify the reward function as quickly as possible from the expert's demonstrations in said environments. This results in improvements in both sample-efficiency and robustness, as we show experimentally, for both exact and approximate inference. | 翻訳日:2024-05-08 03:39:13 公開日:2024-05-05 |
# 反復分解による軽量イベントベース光フロー推定
Lightweight Event-based Optical Flow Estimation via Iterative Deblurring ( http://arxiv.org/abs/2211.13726v4 ) ライセンス: Link先を確認 | Yilun Wu, Federico Paredes-Vallés, Guido C. H. E. de Croon, | (参考訳) フレームベースの手法にインスパイアされた、最先端のイベントベースの光フローネットワークは、計算と保存に高価である相関ボリュームの明示的な構成に依存しており、計算とエネルギー予算が限られているロボットアプリケーションには適さない。
さらに、相関体積は分解能に乏しく、高分解能流れを推定することを禁じている。
事象の時空間的連続的なトレースは、画素対応を求めるための自然な探索方向を提供し、そのような探索方向のような明示的な相関ボリュームの勾配に依存する必要をなくすことを観察する。
相関ボリュームを使わずにイベントトレースからのフローを直接推定する軽量かつ高性能なイベントベース光フローネットワークIDNet(Iterative Deblurring Network)を導入する。
さらに、同じイベントのバッチを繰り返す"ID"と、オンラインの方法でストリーミングイベントを繰り返す"TID"という2つの反復的な更新スキームを提案する。
私たちの最高のIDモデルは、新しい最先端のDSECベンチマークを設定します。
一方、ベースIDモデルは、80%のパラメータを使用し、20倍のメモリフットプリントを消費し、NVidia Jetson Xavier NXで40%高速に動作しながら、先行技術と競合する。
さらに、TIDモデルは、9%の性能低下を犠牲にして、さらに5倍高速な推論速度と8ミリ秒超低レイテンシを提供することができる。
Inspired by frame-based methods, state-of-the-art event-based optical flow networks rely on the explicit construction of correlation volumes, which are expensive to compute and store, rendering them unsuitable for robotic applications with limited compute and energy budget. Moreover, correlation volumes scale poorly with resolution, prohibiting them from estimating high-resolution flow. We observe that the spatiotemporally continuous traces of events provide a natural search direction for seeking pixel correspondences, obviating the need to rely on gradients of explicit correlation volumes as such search directions. We introduce IDNet (Iterative Deblurring Network), a lightweight yet high-performing event-based optical flow network directly estimating flow from event traces without using correlation volumes. We further propose two iterative update schemes: "ID" which iterates over the same batch of events, and "TID" which iterates over time with streaming events in an online fashion. Our top-performing ID model sets a new state of the art on DSEC benchmark. Meanwhile, the base ID model is competitive with prior arts while using 80% fewer parameters, consuming 20x less memory footprint and running 40% faster on the NVidia Jetson Xavier NX. Furthermore, the TID model is even more efficient offering an additional 5x faster inference speed and 8 ms ultra-low latency at the cost of only a 9% performance drop, making it the only model among current literature capable of real-time operation while maintaining decent performance. | 翻訳日:2024-05-08 03:39:13 公開日:2024-05-05 |
# プライベート適応型ハイパーパラメータ最適化のための新しい線形スケーリングルール
A New Linear Scaling Rule for Private Adaptive Hyperparameter Optimization ( http://arxiv.org/abs/2212.04486v3 ) ライセンス: Link先を確認 | Ashwinee Panda, Xinyu Tang, Saeed Mahloujifar, Vikash Sehwag, Prateek Mittal, | (参考訳) 微分プライベートディープラーニングにおけるオープンな問題は、ハイパーパラメータ最適化(HPO)である。
DP-SGDは新しいハイパーパラメータを導入し、既存のパラメータを複雑にすることで、何百ものトライアルでハイパーパラメータを調整せざるを得ない。
我々は,最適なハイパーパラメータを推定し,それらをスケールアップするために,安価な試行(プライバシコストとランタイムの観点から)を利用する適応型HPO法を提案する。
我々は22のベンチマークタスク、コンピュータビジョンと自然言語処理、事前トレーニングと微調整、アーキテクチャ、および幅広い種類の$\varepsilon \in [0.01,8.0]$において、HPOのプライバシコストを考慮しつつ、最先端のパフォーマンスを得る。
An open problem in differentially private deep learning is hyperparameter optimization (HPO). DP-SGD introduces new hyperparameters and complicates existing ones, forcing researchers to painstakingly tune hyperparameters with hundreds of trials, which in turn makes it impossible to account for the privacy cost of HPO without destroying the utility. We propose an adaptive HPO method that uses cheap trials (in terms of privacy cost and runtime) to estimate optimal hyperparameters and scales them up. We obtain state-of-the-art performance on 22 benchmark tasks, across computer vision and natural language processing, across pretraining and finetuning, across architectures and a wide range of $\varepsilon \in [0.01,8.0]$, all while accounting for the privacy cost of HPO. | 翻訳日:2024-05-08 01:45:50 公開日:2024-05-05 |
# 直交超球圧縮による異常検出
Deep Orthogonal Hypersphere Compression for Anomaly Detection ( http://arxiv.org/abs/2302.06430v2 ) ライセンス: Link先を確認 | Yunhe Zhang, Yan Sun, Jinyu Cai, Jicong Fan, | (参考訳) 多くのよく知られた効果的な異常検出法は、合理的な決定境界が超球形状を持つと仮定するが、実際は取得が困難であり、特に高次元空間におけるデータでは十分コンパクトではない。
本稿では,直交射影層を通した元のハイパースフィア学習を改良し,トレーニングデータ分布がハイパースフィア仮説と整合性があることを保証し,真の正の確率を増大させ,偽の負のレートを減少させる,新しい深部異常検出モデルを提案する。
さらに,超球面よりもコンパクトな決定領域が得られる超球面殻を得るための超球面圧縮法を提案する。
提案手法は, 画像データや表計算データなどの一般的なデータセットに限らず, より困難だが有望なシナリオであるグラフレベルの異常検出にも拡張される。
ベンチマークデータセットの数値的および可視化的結果は,多くのベースラインや最先端手法と比較して,我々の手法の優位性を示している。
Many well-known and effective anomaly detection methods assume that a reasonable decision boundary has a hypersphere shape, which however is difficult to obtain in practice and is not sufficiently compact, especially when the data are in high-dimensional spaces. In this paper, we first propose a novel deep anomaly detection model that improves the original hypersphere learning through an orthogonal projection layer, which ensures that the training data distribution is consistent with the hypersphere hypothesis, thereby increasing the true positive rate and decreasing the false negative rate. Moreover, we propose a bi-hypersphere compression method to obtain a hyperspherical shell that yields a more compact decision region than a hyperball, which is demonstrated theoretically and numerically. The proposed methods are not confined to common datasets such as image and tabular data, but are also extended to a more challenging but promising scenario, graph-level anomaly detection, which learns graph representation with maximum mutual information between the substructure and global structure features while exploring orthogonal single- or bi-hypersphere anomaly decision boundaries. The numerical and visualization results on benchmark datasets demonstrate the superiority of our methods in comparison to many baselines and state-of-the-art methods. | 翻訳日:2024-05-08 01:45:50 公開日:2024-05-05 |
# 木質モデルにおける限界特徴属性について
On marginal feature attributions of tree-based models ( http://arxiv.org/abs/2302.08434v4 ) ライセンス: Link先を確認 | Khashayar Filom, Alexey Miroshnikov, Konstandinos Kotsiopoulos, Arjun Ravi Kannan, | (参考訳) そのパワーと使いやすさのため、ランダムな森林や傾斜した樹木のアンサンブルのような木ベースの機械学習モデルは非常に人気がある。
それらを解釈するために、例えばシャプリー、オーウェンまたはバンジャフの値など、限界的な期待に基づく局所的特徴属性を用いることができる。
このような方法はモデルと実装不変量、すなわちモデルの入出力関数にのみ依存する。
本手法は,2つの(統計的に類似した)決定木を「パス依存」のTreeSHAPが特徴のランク付けを行うのに対して,シャープリー値が一致するのに対して,TreeSHAPアルゴリズムと対比する。
さらに,木質モデルの内部構造がどのように活用され,線形ゲーム値による限界特徴属性の計算に役立てられるかについて議論する。
重要な観察の一つは、これらの関数は、訓練されたモデルによって決定される入力空間の特定の格子分割に関して単純(一様)な関数であるということである。
XGBoost、LightGBM、CatBoostライブラリの実験で示されたもうひとつの重要な観察は、すべての機能がアンサンブルからツリーに表示されることだ。
したがって、余剰Shapley(またはOwenまたはBanzhaf)の特徴属性の計算の複雑さは減少する可能性がある。
これは、我々が公理的に特徴づけるより広範なゲーム値のクラスに対して有効である。
主な例はCatBoostモデルの場合で、木は斜め(対称)であり、それぞれの特徴の数は深さよりも大きくない。
我々は、CataBoostモデルの余剰Shapley(およびBanzhafとOwen)値についてのみ、複雑さを改善し、内部モデルパラメータの観点からのみ、明示的な式を導出するために対称性を利用する。
これにより、これらの特徴属性を推定するための高速で正確なアルゴリズムが得られる。
Due to their power and ease of use, tree-based machine learning models, such as random forests and gradient-boosted tree ensembles, have become very popular. To interpret them, local feature attributions based on marginal expectations, e.g. marginal (interventional) Shapley, Owen or Banzhaf values, may be employed. Such methods are true to the model and implementation invariant, i.e. dependent only on the input-output function of the model. We contrast this with the popular TreeSHAP algorithm by presenting two (statistically similar) decision trees that compute the exact same function for which the "path-dependent" TreeSHAP yields different rankings of features, whereas the marginal Shapley values coincide. Furthermore, we discuss how the internal structure of tree-based models may be leveraged to help with computing their marginal feature attributions according to a linear game value. One important observation is that these are simple (piecewise-constant) functions with respect to a certain grid partition of the input space determined by the trained model. Another crucial observation, showcased by experiments with XGBoost, LightGBM and CatBoost libraries, is that only a portion of all features appears in a tree from the ensemble. Thus, the complexity of computing marginal Shapley (or Owen or Banzhaf) feature attributions may be reduced. This remains valid for a broader class of game values which we shall axiomatically characterize. A prime example is the case of CatBoost models where the trees are oblivious (symmetric) and the number of features in each of them is no larger than the depth. We exploit the symmetry to derive an explicit formula, with improved complexity and only in terms of the internal model parameters, for marginal Shapley (and Banzhaf and Owen) values of CatBoost models. This results in a fast, accurate algorithm for estimating these feature attributions. | 翻訳日:2024-05-08 01:45:50 公開日:2024-05-05 |
# ブロックチェーントランザクションネットワークにおけるデータ深さとコアベーストレンド検出
Data Depth and Core-based Trend Detection on Blockchain Transaction Networks ( http://arxiv.org/abs/2303.14241v2 ) ライセンス: Link先を確認 | Jason Zhu, Arijit Khan, Cuneyt Gurcan Akcora, | (参考訳) ブロックチェーンは貿易金融を著しく緩和しており、毎日数十億ドル相当の資産が取引されている。
しかし、データの量と複雑さのため、これらのネットワークを解析することは依然として困難である。
ブロックチェーンベースのネットワーク内のマーケットマニピュレータを検出し,これらのネットワークに対するインセンティブインジケータを提供する。
これは、データ深度ベースのコア分解と中心となるモチーフ発見によって実現され、スケーラビリティが保証される。
インナーコアは計算的に効率的で教師なしのアプローチであり、大きな時間グラフを解析するのに適している。
我々のデータセットから,LunaTerraの破滅的な崩壊,EthereumのProof-of-Stakeスイッチ,USDCの一時的なペグ損失など,最近の3つの現実世界のインシデントを分析し,検出することで,その効果を実証する。
実験の結果,ブロックチェーン分析をスケーラブルな方法で自動化しながら,動的グラフにおけるベースラインや最先端の属性変更検出アプローチよりも効率的かつ効率的に行うことができることがわかった。
Blockchains are significantly easing trade finance, with billions of dollars worth of assets being transacted daily. However, analyzing these networks remains challenging due to the sheer volume and complexity of the data. We introduce a method named InnerCore that detects market manipulators within blockchain-based networks and offers a sentiment indicator for these networks. This is achieved through data depth-based core decomposition and centered motif discovery, ensuring scalability. InnerCore is a computationally efficient, unsupervised approach suitable for analyzing large temporal graphs. We demonstrate its effectiveness by analyzing and detecting three recent real-world incidents from our datasets: the catastrophic collapse of LunaTerra, the Proof-of-Stake switch of Ethereum, and the temporary peg loss of USDC - while also verifying our results against external ground truth. Our experiments show that InnerCore can match the qualified analysis accurately without human involvement, automating blockchain analysis in a scalable manner, while being more effective and efficient than baselines and state-of-the-art attributed change detection approach in dynamic graphs. | 翻訳日:2024-05-08 01:36:03 公開日:2024-05-05 |
# AraSpot:アラビアの音声コマンドスポッティング
AraSpot: Arabic Spoken Command Spotting ( http://arxiv.org/abs/2303.16621v2 ) ライセンス: Link先を確認 | Mahmoud Salhab, Haidar Harmanani, | (参考訳) Spokenキーワードスポッティング(英: Spokenキーワードスポッティング、英: Spokenキーワードスポッティング、英: Spokenキーワードスポッティング)は、音声アシスタントを起動し、ハンズフリータスクを実行するために、音声ストリーム内のキーワードを識別するタスクである。
このタスクは、高い精度を達成すると同時に、そのようなシステムが低電力およびおそらく制限された計算能力デバイス上で効率よく動作し続けることを保証するために、大変な作業である。
この研究は、40のアラビア語キーワードで訓練されたアラビア語キーワードスポッティングのためのAraSpotを紹介し、異なるオンラインデータ拡張を使用し、ConformerGRUモデルアーキテクチャを導入した。
最後に、合成データ生成のためのテキスト音声モデルの訓練により、モデルの性能をさらに向上する。
AraSpotはステート・オブ・ザ・アーツのSOTA 99.59%を達成し、以前のアプローチより優れていた。
Spoken keyword spotting (KWS) is the task of identifying a keyword in an audio stream and is widely used in smart devices at the edge in order to activate voice assistants and perform hands-free tasks. The task is daunting as there is a need, on the one hand, to achieve high accuracy while at the same time ensuring that such systems continue to run efficiently on low power and possibly limited computational capabilities devices. This work presents AraSpot for Arabic keyword spotting trained on 40 Arabic keywords, using different online data augmentation, and introducing ConformerGRU model architecture. Finally, we further improve the performance of the model by training a text-to-speech model for synthetic data generation. AraSpot achieved a State-of-the-Art SOTA 99.59% result outperforming previous approaches. | 翻訳日:2024-05-08 01:36:03 公開日:2024-05-05 |
# RegionPLC: オープンワールド3Dシーン理解のための地域ポイント・ランゲージコントラスト学習
RegionPLC: Regional Point-Language Contrastive Learning for Open-World 3D Scene Understanding ( http://arxiv.org/abs/2304.00962v4 ) ライセンス: Link先を確認 | Jihan Yang, Runyu Ding, Weipeng Deng, Zhe Wang, Xiaojuan Qi, | (参考訳) 本稿では,オープンワールド3Dシーン理解のための軽量でスケーラブルな地域ポイント・ランゲージ・コントラスト学習フレームワークである「textbf{RegionPLC}」を提案する。
具体的には、実証研究に基づいて、複数の2次元基礎モデルから派生した3次元視覚言語対を融合させ、人間の3Dアノテーションなしで高品質で高密度な地域レベルの言語記述を生成する3D認識型SFusion戦略を導入する。
そこで我々は,高密度な地域言語による堅牢で効果的な3D学習を実現するために,地域対応のポイント識別型コントラスト学習目標を考案した。
ScanNet, ScanNet200, nuScenesのデータセットに関する広範な実験を行い, 我々のモデルは, 拡張性とリソース要求の低さを維持しつつ, セマンティックセグメンテーションにおいて, 平均17.2\%, 9.1\%の3次元オープンワールドシーン理解アプローチよりも優れていた。
さらに,本手法は,タスク固有の訓練を伴わずに,オープンエンドの3D推論を可能にするために,言語モデルとシームレスに統合される柔軟性を有する。
コードはhttps://github.com/CVMI-Lab/PLAで公開されている。
We propose a lightweight and scalable Regional Point-Language Contrastive learning framework, namely \textbf{RegionPLC}, for open-world 3D scene understanding, aiming to identify and recognize open-set objects and categories. Specifically, based on our empirical studies, we introduce a 3D-aware SFusion strategy that fuses 3D vision-language pairs derived from multiple 2D foundation models, yielding high-quality, dense region-level language descriptions without human 3D annotations. Subsequently, we devise a region-aware point-discriminative contrastive learning objective to enable robust and effective 3D learning from dense regional language supervision. We carry out extensive experiments on ScanNet, ScanNet200, and nuScenes datasets, and our model outperforms prior 3D open-world scene understanding approaches by an average of 17.2\% and 9.1\% for semantic and instance segmentation, respectively, while maintaining greater scalability and lower resource demands. Furthermore, our method has the flexibility to be effortlessly integrated with language models to enable open-ended grounded 3D reasoning without extra task-specific training. Code is available at https://github.com/CVMI-Lab/PLA. | 翻訳日:2024-05-08 01:36:03 公開日:2024-05-05 |
# QuantProb: 事前学習型分類器の予測とともに確率を一般化する
QuantProb: Generalizing Probabilities along with Predictions for a Pre-trained Classifier ( http://arxiv.org/abs/2304.12766v2 ) ライセンス: Link先を確認 | Aditya Challa, Snehanshu Saha, Soma Dhavala, | (参考訳) 予測の不確かさの定量化は難しい問題である。
分類設定では、ディープラーニングベースのモデルはよく一般化するが、クラス確率は信頼性に欠けることが多い。
校正誤差は不確実性の定量化に使われ、校正誤差を最小化するためにいくつかの方法が存在する。
我々は、歪みによって増加する元の分布に最小限のキャリブレーション誤差を持つか、あるいは歪み間で一定である(おそらくはわずかに高い)キャリブレーション誤差を持つかの選択の間、ディープ・ネットワークの不確実性の原因は、現在ニューラルネットワークが訓練されている方法であり、確率は小さな歪みをまたいで一般化しない、と仮説を立てる。
我々は、量子的アプローチがこの問題を解決できる可能性を観察する。
損失関数から量子化表現を分離し、元のネットワークを乱さずに量子化に基づく確率を計算する革新的な手法を提案する。
我々は、量子化と確率の間の新しい双対性特性を確立し、事前訓練された分類器から量子化の確率を得る能力を得る。
ポストホック校正法は校正誤差を最小化することに成功したが、歪みに対する堅牢性は保たない。
本研究では,量子化確率がソフトマックス確率よりも一般化するため,量子化表現から得られる量子化確率(Quantile probabilities,Quantile probabilities,Quantile probabilities,Quantile probabilities,Quantile probabilities,Quantile probabilities,Quantile probabilities,Quantile Prob)について述べる。
Quantification of Uncertainty in predictions is a challenging problem. In the classification settings, although deep learning based models generalize well, class probabilities often lack reliability. Calibration errors are used to quantify uncertainty, and several methods exist to minimize calibration error. We argue that between the choice of having a minimum calibration error on original distribution which increases across distortions or having a (possibly slightly higher) calibration error which is constant across distortions, we prefer the latter We hypothesize that the reason for unreliability of deep networks is - The way neural networks are currently trained, the probabilities do not generalize across small distortions. We observe that quantile based approaches can potentially solve this problem. We propose an innovative approach to decouple the construction of quantile representations from the loss function allowing us to compute quantile based probabilities without disturbing the original network. We achieve this by establishing a novel duality property between quantiles and probabilities, and an ability to obtain quantile probabilities from any pre-trained classifier. While post-hoc calibration techniques successfully minimize calibration errors, they do not preserve robustness to distortions. We show that, Quantile probabilities (QuantProb), obtained from Quantile representations, preserve the calibration errors across distortions, since quantile probabilities generalize better than the naive Softmax probabilities. | 翻訳日:2024-05-08 01:36:03 公開日:2024-05-05 |
# ハードウェア・ハニーポット:シークエンシャル・リバース・エンジニアリングを間違ったトラックに設定する
Hardware Honeypot: Setting Sequential Reverse Engineering on a Wrong Track ( http://arxiv.org/abs/2305.03707v3 ) ライセンス: Link先を確認 | Michaela Brunner, Hye Hyun Lee, Alexander Hepp, Johanna Baehr, Georg Sigl, | (参考訳) 有限状態機械(FSM)のリバースエンジニアリング(RE)は、RE攻撃から設計を保護する際に深刻な脅威となる。
最近の保護技術は秘密鍵のセキュリティに依存しているが、この研究は、ハードウェアFSMハニーポットという新しいアプローチを提示している。
これらのミツバチはREツールを間違った方向に導くが、ツールにとって非常に魅力的なFSMでありながら、オリジナルのFSMを魅力的にしない。
その結果、最先端のRE法ではFSM候補として非常に魅力的なミツバチが好まれるか、あるいは元のFSMが検出されなくなったことが示唆された。
Reverse engineering (RE) of finite state machines (FSMs) is a serious threat when protecting designs against RE attacks. While most recent protection techniques rely on the security of a secret key, this work presents a new approach: hardware FSM honeypots. These honeypots lead the RE tools to a wrong but, for the tools, very attractive FSM, while making the original FSM less attractive. The results show that state-of-the-art RE methods favor the highly attractive honeypot as FSM candidate or do no longer detect the correct, original FSM. | 翻訳日:2024-05-08 01:36:03 公開日:2024-05-05 |
# アルゴリズム生成ミススペルを用いたディープニューラルネットワークによるペルシャのタイポグラフィー誤差型検出
Persian Typographical Error Type Detection Using Deep Neural Networks on Algorithmically-Generated Misspellings ( http://arxiv.org/abs/2305.11731v5 ) ライセンス: Link先を確認 | Mohammad Dehghani, Heshaam Faili, | (参考訳) スペル補正は自然言語処理の分野において顕著な課題である。
スペル訂正タスクの目的は、スペル誤りを自動的に認識し、修正することである。
ペルシャ語のスペルや文法上の誤りを効果的に診断・修正できるアプリケーションの開発は、ペルシア語のテキストの品質を向上させるためにますます重要になっている。
タイポグラフィーによるペルシャのエラータイプ検出は比較的調査の少ない地域である。
そこで本研究では,ペルシャ語文の誤字を検出するための魅力的なアプローチを提案する。
私たちの研究には、FarsTypoという、時系列で並べられた340万語からなる、公開データセットのプレゼンテーションが含まれています。
これらの言葉は幅広い話題や言語スタイルをカバーしている。
これらの単語のスケーラブルな部分にペルシャ固有の誤りを適用するように設計されたアルゴリズムを開発し、その結果、正しい単語と間違った単語の並列データセットを生成する。
FarsTypoを活用することで、強力な基盤を確立し、異なるアーキテクチャを用いた様々な方法論を徹底的に比較する。
さらに, 単語と文字の埋め込みと双方向のLSTMレイヤを併用して, 51の異なるクラスにまたがる入力誤りの検出を目的としたトークン分類を行う。
本研究と異なり,本手法は多種多様な資源を用いて開発されている高度産業システムとは対照的である。
最終手法の結果は競争力が高く、精度は97.62%、精度は98.83%、リコールは98.61%、速度は他を上回った。
Spelling correction is a remarkable challenge in the field of natural language processing. The objective of spelling correction tasks is to recognize and rectify spelling errors automatically. The development of applications that can effectually diagnose and correct Persian spelling and grammatical errors has become more important in order to improve the quality of Persian text. The Typographical Error Type Detection in Persian is a relatively understudied area. Therefore, this paper presents a compelling approach for detecting typographical errors in Persian texts. Our work includes the presentation of a publicly available dataset called FarsTypo, which comprises 3.4 million words arranged in chronological order and tagged with their corresponding part-of-speech. These words cover a wide range of topics and linguistic styles. We develop an algorithm designed to apply Persian-specific errors to a scalable portion of these words, resulting in a parallel dataset of correct and incorrect words. By leveraging FarsTypo, we establish a strong foundation and conduct a thorough comparison of various methodologies employing different architectures. Additionally, we introduce a groundbreaking Deep Sequential Neural Network that utilizes both word and character embeddings, along with bidirectional LSTM layers, for token classification aimed at detecting typographical errors across 51 distinct classes. Our approach is contrasted with highly advanced industrial systems that, unlike this study, have been developed using a diverse range of resources. The outcomes of our final method proved to be highly competitive, achieving an accuracy of 97.62%, precision of 98.83%, recall of 98.61%, and surpassing others in terms of speed. | 翻訳日:2024-05-08 01:36:03 公開日:2024-05-05 |
# 評価できないことを評価する: 生成応答に対する評価不可能な品質
Evaluate What You Can't Evaluate: Unassessable Quality for Generated Response ( http://arxiv.org/abs/2305.14658v3 ) ライセンス: Link先を確認 | Yongkang Liu, Shi Feng, Daling Wang, Yifei Zhang, Hinrich Schütze, | (参考訳) ChatGPTのようなLLM(大規模言語モデル)は、顕著な言語理解と生成能力を示している。
LLMをベースとした参照フリー評価器は、従来の参照ベース評価器よりも優れた人間のアライメントを示すが、LLMをベースとした参照フリー評価器を使用することには多くの課題がある。
参照なし評価器は、異なるセマンティクス応答を持つオープンな例により適している。
しかし、すべての例がオープンエンドであるわけではない。
ユニークな正しいセマンティック応答を持つクローズドエンド例の場合、参照のない評価者は、事実や参照の意味と矛盾する応答を与える際にも高い品質を考慮します。
LLM に基づく評価器の信頼性を総合的に評価するために,KdConv-ADV と DSTC7-ADV の2つの対向的メタ評価対話生成データセットを構築し,それぞれ DSTC7-AVSD と KdConv-ADV をベースとした。
従来のメタ評価ベンチマークと比較すると、KdConv-ADVとDSTC7-ADVの方がはるかに難しい。
実験の結果,LLMが不合理な応答を識別する能力は不十分であることが示唆された。
対話応答の質を評価するため, LLM に基づく推論不要評価器の使用にはリスクがある。
LLMs (large language models) such as ChatGPT have shown remarkable language understanding and generation capabilities. Although reference-free evaluators based on LLMs show better human alignment than traditional reference-based evaluators, there are many challenges in using reference-free evaluators based on LLMs. Reference-free evaluators are more suitable for open-ended examples with different semantics responses. But not all examples are open-ended. For closed-ended examples with unique correct semantic response, reference-free evaluators will still consider it high quality when giving a response that is inconsistent with the facts and the semantic of reference. In order to comprehensively evaluate the reliability of evaluators based on LLMs, we construct two adversarial meta-evaluation dialogue generation datasets KdConv-ADV and DSTC7-ADV based on KdConv and DSTC7-AVSD, respectively. Compared to previous meta-evaluation benchmarks, KdConv-ADV and DSTC7-ADV are much more challenging since they requires evaluators to be able to reasonably evaluate closed-ended examples with the help of external knowledge or even its own knowledge. Empirical results show that the ability of LLMs to identify unreasonable responses is insufficient. There are risks in using eference-free evaluators based on LLMs to evaluate the quality of dialogue responses. | 翻訳日:2024-05-08 01:26:19 公開日:2024-05-05 |
# ChatGPTの公正性
Fairness of ChatGPT ( http://arxiv.org/abs/2305.18569v2 ) ライセンス: Link先を確認 | Yunqi Li, Lanjing Zhang, Yongfeng Zhang, | (参考訳) LLMにおける不公平さの理解と対処は、AIデプロイメントの責任を負う上で不可欠である。
しかし,LLMの公平性評価については,特にLLMを高感度分野に適用する場合に,定量分析や詳細な研究が限られている。
本研究は,ChatGPTを研究事例として,LLMの有効性と公平性を体系的に評価することで,このギャップを埋めることを目的としている。
われわれは、ChatGPTの教育、犯罪学、金融、医療などハイテイク分野における業績を評価することに重点を置いている。
徹底的な評価を行うには、グループフェアネスと個人フェアネスの指標の両方を考慮する。
また,ChatGPTの出力の差を偏りや偏りのない一連のプロンプトで観察する。
この研究は、LLMの公平性のパフォーマンスをより深く理解し、バイアス軽減を促進し、責任あるAIシステムの開発を促進する。
Understanding and addressing unfairness in LLMs are crucial for responsible AI deployment. However, there is a limited number of quantitative analyses and in-depth studies regarding fairness evaluations in LLMs, especially when applying LLMs to high-stakes fields. This work aims to fill this gap by providing a systematic evaluation of the effectiveness and fairness of LLMs using ChatGPT as a study case. We focus on assessing ChatGPT's performance in high-takes fields including education, criminology, finance and healthcare. To conduct a thorough evaluation, we consider both group fairness and individual fairness metrics. We also observe the disparities in ChatGPT's outputs under a set of biased or unbiased prompts. This work contributes to a deeper understanding of LLMs' fairness performance, facilitates bias mitigation and fosters the development of responsible AI systems. | 翻訳日:2024-05-08 01:26:19 公開日:2024-05-05 |
# 正の非可換多項式によるスペクトル不均一グラフ畳み込み
Spectral Heterogeneous Graph Convolutions via Positive Noncommutative Polynomials ( http://arxiv.org/abs/2305.19872v2 ) ライセンス: Link先を確認 | Mingguo He, Zhewei Wei, Shikun Feng, Zhengjie Huang, Weibin Li, Yu Sun, Dianhai Yu, | (参考訳) 不均一グラフニューラルネットワーク(HGNN)は、様々な異種グラフ学習タスクで大きな人気を集めている。
しかし、既存のHGNNの多くは、情報収集のための空間的ドメインベースの手法、すなわち、手動で選択したメタパスやヒューリスティックモジュールに依存しており、理論的保証がない。
さらに、これらの手法はスペクトル領域内の任意の有効不均一グラフフィルタを学習することができず、表現性に制限がある。
これらの問題に対処するために、正の非可換多項式による正のスペクトル異質グラフ畳み込みを提案する。
そして、この畳み込みを用いて、新規な正スペクトル不均一グラフ畳み込みネットワークであるPSHGCNを提案する。
PSHGCNは、有効なヘテロジニアスグラフフィルタを学習するための、単純かつ効果的な方法を提供する。
さらに,グラフ最適化フレームワークにおけるPSHGCNの理論的根拠を示す。
我々は、PSHGCNが多様な異種グラフフィルタを学習し、オープンベンチマークで全てのベースラインを上回り得ることを示すために、広範な実験を行った。
特にPSHGCNは、数百万のノードとエッジからなる大規模な実世界のグラフを効率的に処理する、優れたスケーラビリティを示している。
私たちのコードはhttps://github.com/ivam-he/PSHGCN.comで公開されています。
Heterogeneous Graph Neural Networks (HGNNs) have gained significant popularity in various heterogeneous graph learning tasks. However, most existing HGNNs rely on spatial domain-based methods to aggregate information, i.e., manually selected meta-paths or some heuristic modules, lacking theoretical guarantees. Furthermore, these methods cannot learn arbitrary valid heterogeneous graph filters within the spectral domain, which have limited expressiveness. To tackle these issues, we present a positive spectral heterogeneous graph convolution via positive noncommutative polynomials. Then, using this convolution, we propose PSHGCN, a novel Positive Spectral Heterogeneous Graph Convolutional Network. PSHGCN offers a simple yet effective method for learning valid heterogeneous graph filters. Moreover, we demonstrate the rationale of PSHGCN in the graph optimization framework. We conducted an extensive experimental study to show that PSHGCN can learn diverse heterogeneous graph filters and outperform all baselines on open benchmarks. Notably, PSHGCN exhibits remarkable scalability, efficiently handling large real-world graphs comprising millions of nodes and edges. Our codes are available at https://github.com/ivam-he/PSHGCN. | 翻訳日:2024-05-08 01:26:19 公開日:2024-05-05 |
# 人間-AI協調のための意思決定指向対話
Decision-Oriented Dialogue for Human-AI Collaboration ( http://arxiv.org/abs/2305.20076v3 ) ライセンス: Link先を確認 | Jessy Lin, Nicholas Tomlin, Jacob Andreas, Jason Eisner, | (参考訳) そこでは,大規模言語モデル(LM)のようなAIアシスタントが,自然言語を介して複数の人間と協調して複雑な意思決定を行うための,意思決定指向対話と呼ばれるタスクのクラスについて述べる。
日常的な意思決定に直面する3つの領域を定式化し,(1)レビュアーの会議論文への課題の選択,(2)都市における複数段階の旅程の計画,(3)友人集団の旅行計画の交渉を行う。
これらの設定において、AIアシスタントとユーザーは、最高の決定に達するために組み合わせなければならない異なる能力を持っている:アシスタントは大量の情報にアクセスして処理でき、ユーザーはシステム以外の好みや制約を持っている。
各タスクに対して、エージェントが到達した最終決定の質に基づいて報酬を受け取る対話環境を構築する。
自己演奏や人間とのコラボレーションにおいてLMを評価し,人間のアシスタントに比べて低下し,より長い対話に携わるにもかかわらず,より低い報酬を得ることができた。
私たちは、ゴール指向の振る舞いから推論と最適化まで、決定指向の対話においてモデルが直面する多くの課題を強調し、将来の作業のためのテストベッドとして環境をリリースします。
We describe a class of tasks called decision-oriented dialogues, in which AI assistants such as large language models (LMs) must collaborate with one or more humans via natural language to help them make complex decisions. We formalize three domains in which users face everyday decisions: (1) choosing an assignment of reviewers to conference papers, (2) planning a multi-step itinerary in a city, and (3) negotiating travel plans for a group of friends. In each of these settings, AI assistants and users have disparate abilities that they must combine to arrive at the best decision: assistants can access and process large amounts of information, while users have preferences and constraints external to the system. For each task, we build a dialogue environment where agents receive a reward based on the quality of the final decision they reach. We evaluate LMs in self-play and in collaboration with humans and find that they fall short compared to human assistants, achieving much lower rewards despite engaging in longer dialogues. We highlight a number of challenges models face in decision-oriented dialogues, ranging from goal-directed behavior to reasoning and optimization, and release our environments as a testbed for future work. | 翻訳日:2024-05-08 01:26:19 公開日:2024-05-05 |
# アフリカ中心音声認識の強化:一般化可能なASRモデルのための認識不確実性駆動型データ選択
Advancing African-Accented Speech Recognition: Epistemic Uncertainty-Driven Data Selection for Generalizable ASR Models ( http://arxiv.org/abs/2306.02105v3 ) ライセンス: Link先を確認 | Bonaventure F. P. Dossou, Atnafu Lambebo Tonja, Chris Chinenye Emezue, Tobi Olatunji, Naome A Etori, Salomey Osei, Tosin Adewumi, Sahib Singh, | (参考訳) アクセントは、他人の理解を助け、他人の理解方法で知的なコミュニケーションを可能にするため、人間のコミュニケーションにおいて不可欠です。
ASRには大きな進歩があったが、アフリカ中心のASRは訓練データセットが不足しているため、労働力の創出と要求に費用がかかるため、研究が進められている。
本研究の目的は、アノテーションプロセスの自動化と、情報的不確実性に基づくデータ選択によるアノテーション関連費用の削減により、この問題に対処することである。
本稿では,複数の領域,データセット,高パフォーマンスASRモデルにまたがって,疫学的不確実性を利用した新しいマルチラウンド適応プロセスを提案する。
以上の結果から,従来のベースラインよりも平均45倍少ないデータを必要とする一方で,69.44倍のWER改善を実現していることがわかった。
また,非常に低リソースのアクセントに対する分布外一般化を改良し,アクセント付きアフリカASRの文脈で一般化可能なASRモデルを構築する可能性を示した。
さらに, 実環境設定をシミュレートした能動的学習実験の結果から, 良質な実生活の書き起こしを好む方法が示された。
提案手法はアフリカ中心のASRの即時問題に対処し,他の未表現および低リソース言語やアクセントに対するASRシステムの改善に広範な意味を持つことを示す。
私たちはhttps://github.com/bonaventuredossou/active_learning_african_asrをオープンソースにしています。
Accents are crucial in human communication as they help us understand others and allow us to communicate intelligibly in a way others understand us. While there has been significant progress in ASR, African-accented ASR has been understudied due to a lack of training datasets which are often expensive to create and demand colossal human labor. Our study aims to address this problem by automating the annotation process and reducing annotation-related expenses through informative uncertainty-based data selection. We propose a new multi-rounds adaptation process that uses epistemic uncertainty and evaluate it across several domains, datasets, and high-performing ASR models. Our results show that our approach leads to a 69.44\% WER improvement while requiring on average 45\% less data than established baselines. Our approach also improves out-of-distribution generalization for very low-resource accents, demonstrating its viability for building generalizable ASR models in the context of accented African ASR. Moreover, the results of our active learning experiments, simulating real-world settings, where there are no \textit{gold} transcriptions available, also demonstrate the ability of our approach to favor good quality real-life transcriptions. This indicates that our proposed approach addresses the immediate issue of African-accented ASR and has broader implications for improving ASR systems for other underrepresented and low-resource languages and accents. We open-source the code https://github.com/bonaventuredossou/active_learning_african_asr | 翻訳日:2024-05-08 01:26:19 公開日:2024-05-05 |
# 大衆文化における拡張現実のビジョン:世界がスクリーンになるときの力と(読めない)アイデンティティ
Visions of augmented reality in popular culture: Power and (un)readable identities when the world becomes a screen ( http://arxiv.org/abs/2306.04434v2 ) ライセンス: Link先を確認 | Marianne Gunderson, | (参考訳) デジタルオブジェクトがオーバーレイされ、通常の視覚面と組み合わさった拡張現実(Augmented reality)は、デジタルの未来に対するビジョンの一部であり、急速に発展している技術である。
本稿では,拡張現実の3つのポップカルチャー的ビジョンに,視線と力がどのようにコード化されているかを検討する。
本論文は, ファミニズム理論の演出性, 知性, 可視性, 人種, ジェンダー付き視線, アルゴリズム的ノルマティビティに関するレンズを通して, SFにおける拡張現実の表現を分析し, 視覚技術としての拡張現実の批判的理解と, 可能ノルムやパワー関係の変化や強化について述べる。
スクリーンに境界がなくなったこれらの未来では、協力的および不愉快な身体の両方に、性別と人種のデジタルマーカーが刻まれている。
私は、フェミニスト理論を通じて拡張現実のビジョンを読むことで、拡張現実技術が人間、談話、テクノロジーの集まりに入り、どの俳優も必ずしも概要を持っていない、と論じます。
これらの集合体において、拡張現実は、アイデンティティをコード化し、階層的な関係を構築し、社会的相互作用をスクリプトする知性のグリッドを形成することによって、パフォーマンス的で規範的な役割を担っている。
Augmented reality, where digital objects are overlaid and combined with the ordinary visual surface, is a technology under rapid development, which has long been a part of visions of the digital future. In this article, I examine how gaze and power are coded into three pop-cultural visions of augmented reality. By analyzing representations of augmented reality in science fiction through the lens of feminist theory on performativity and intelligibility, visibility and race, gendered gaze, and algorithmic normativity, this paper provides a critical understanding of augmented reality as a visual technology, and how it might change or reinforce possible norms and power relations. In these futures where the screen no longer has any boundaries, both cooperative and reluctant bodies are inscribed with gendered and racialized digital markers. Reading visions of augmented reality through feminist theory, I argue that augmented reality technologies enter into assemblages of people, discourses, and technologies, where none of the actors necessarily has an overview. In these assemblages, augmented reality takes on a performative and norm-bearing role, by forming a grid of intelligibility that codifies identities, structures hierarchical relationships, and scripts social interactions. | 翻訳日:2024-05-08 01:26:19 公開日:2024-05-05 |
# LMFlow:大規模基盤モデルの微調整と推論のための拡張可能なツールキット
LMFlow: An Extensible Toolkit for Finetuning and Inference of Large Foundation Models ( http://arxiv.org/abs/2306.12420v2 ) ライセンス: Link先を確認 | Shizhe Diao, Rui Pan, Hanze Dong, Ka Shun Shum, Jipeng Zhang, Wei Xiong, Tong Zhang, | (参考訳) ファンデーションモデルは、従来のアプローチをはるかに超越した、一般的な人間レベルのインテリジェンスを達成するための優れた能力を示してきた。
この技術がAIコミュニティから注目を集めている中、ファンデーションモデルの増加が公になってきている。
しかしながら、これらのモデルの重大な欠点は、特定のドメインやタスク固有のアプリケーションのパフォーマンスであり、効果的な科学的言語モデルを開発するためにドメインやタスク対応の微調整を必要とすることである。
利用可能な基礎モデルや専門的なタスクの数が増え続けているため、科学言語モデルを訓練する仕事は極めて簡単ではない。
本稿では,この問題に対処するための取り組みを開始する。
本稿では,汎用基盤モデルのドメイン・タスク・アウェア・ファインタニングを簡略化することを目的とした拡張可能で軽量なツールキットLMFlowを紹介する。
LMFlowは、限られたコンピューティングリソースで専門的なトレーニングをサポートする基礎モデルのための完全な微調整ワークフローを提供する。
さらに、継続的事前トレーニング、命令チューニング、パラメータ効率の高い微調整、アライメントチューニング、推論アクセラレーション、長期コンテキストの一般化、モデルのカスタマイズ、さらには、慎重に設計され拡張可能なAPIまでサポートしている。
このツールキットは徹底的にテストされており、https://github.com/OptimalScale/LMFlow.comで入手できる。
Foundation models have demonstrated a great ability to achieve general human-level intelligence far beyond traditional approaches. As the technique keeps attracting attention from the AI community, an increasing number of foundation models are becoming publicly accessible. However, a significant shortcoming of most of these models lies in their performance in specialized-domain and task-specific applications, necessitating domain- and task-aware fine-tuning to develop effective scientific language models. As the number of available foundation models and specialized tasks keeps growing, the job of training scientific language models becomes highly nontrivial. In this paper, we initiate steps to tackle this issue. We introduce an extensible and lightweight toolkit, LMFlow, which aims to simplify the domain- and task-aware finetuning of general foundation models. LMFlow offers a complete finetuning workflow for a foundation model to support specialized training with limited computing resources. Furthermore, it supports continuous pretraining, instruction tuning, parameter-efficient finetuning, alignment tuning, inference acceleration, long context generalization, model customization, and even multimodal finetuning, along with carefully designed and extensible APIs. This toolkit has been thoroughly tested and is available at https://github.com/OptimalScale/LMFlow. | 翻訳日:2024-05-08 01:16:13 公開日:2024-05-05 |
# 医療領域における言語モデルと名づけられたエンティティ認識
How far is Language Model from 100% Few-shot Named Entity Recognition in Medical Domain ( http://arxiv.org/abs/2307.00186v2 ) ライセンス: Link先を確認 | Mingchen Li, Rui Zhang, | (参考訳) 近年の言語モデル (LM) の進歩により、Small LM (eg , T5) や Large LM (eg , GPT-4) といった強力なモデルが出現している。
これらのモデルは、一般ドメインにおける名前エンティティ認識(NER)など、幅広いタスクにまたがる例外的な機能を示している。
(SLM は T5 や BERT などの GPT-3/3.5/4 などのモデルに比べ,パラメータの少ない事前学習モデルと定義する。)
しかし, 医療領域におけるNERの有効性は依然として不明であり, 医療NERの性能は, フィールドの特異性から常に高い精度が必要である。
本研究の目的は,医療領域における 100 % のFew-shot NER から LM がどこまで遠いのか,また,NER の性能向上に有効な実体認識器を探索することである。
2018年から2023年までの16種類のNERモデルを用いて実施した広範囲な実験から,LLMが数発のNERタスクにおいてSLMよりも優れており,適切な例と適切な論理的枠組みが存在することが示唆された。
医療NERタスクにおけるLLMの全体的な優位性にもかかわらず、誤識別やテンプレート予測の誤りなど、いくつかの課題に直面していることに注意する必要がある。
過去の知見に基づいて,検索者,関連事例,思考者として機能し,ステップ・バイ・ステップの推論プロセスを用いた,シンプルで効果的な方法であるtextsc{RT} (Retrieving and Thinking)を導入する。
実験結果から,提案したtextsc{RT} フレームワークは,2つのオープン医療ベンチマークデータセットにおいて,強力なオープンベースラインを著しく上回っていることが明らかとなった。
Recent advancements in language models (LMs) have led to the emergence of powerful models such as Small LMs (e.g., T5) and Large LMs (e.g., GPT-4). These models have demonstrated exceptional capabilities across a wide range of tasks, such as name entity recognition (NER) in the general domain. (We define SLMs as pre-trained models with fewer parameters compared to models like GPT-3/3.5/4, such as T5, BERT, and others.) Nevertheless, their efficacy in the medical section remains uncertain and the performance of medical NER always needs high accuracy because of the particularity of the field. This paper aims to provide a thorough investigation to compare the performance of LMs in medical few-shot NER and answer How far is LMs from 100\% Few-shot NER in Medical Domain, and moreover to explore an effective entity recognizer to help improve the NER performance. Based on our extensive experiments conducted on 16 NER models spanning from 2018 to 2023, our findings clearly indicate that LLMs outperform SLMs in few-shot medical NER tasks, given the presence of suitable examples and appropriate logical frameworks. Despite the overall superiority of LLMs in few-shot medical NER tasks, it is important to note that they still encounter some challenges, such as misidentification, wrong template prediction, etc. Building on previous findings, we introduce a simple and effective method called \textsc{RT} (Retrieving and Thinking), which serves as retrievers, finding relevant examples, and as thinkers, employing a step-by-step reasoning process. Experimental results show that our proposed \textsc{RT} framework significantly outperforms the strong open baselines on the two open medical benchmark datasets | 翻訳日:2024-05-08 01:16:13 公開日:2024-05-05 |
# 混合精度ニューラル演算子の保証近似境界
Guaranteed Approximation Bounds for Mixed-Precision Neural Operators ( http://arxiv.org/abs/2307.15034v3 ) ライセンス: Link先を確認 | Renbo Tu, Colin White, Jean Kossaifi, Boris Bonev, Nikola Kovachki, Gennady Pekhimenko, Kamyar Azizzadenesheli, Anima Anandkumar, | (参考訳) フーリエニューラル演算子(FNO)のようなニューラル演算子は、PDEと関数空間間の他のマッピングの解演算子を学習するための原理的なアプローチを形成する。
しかし、現実の多くの問題は高解像度のトレーニングデータを必要とし、トレーニング時間と限られたGPUメモリは大きな障壁となる。
1つの解決策は、混合精度でニューラル演算子をトレーニングし、メモリ要求を減らし、トレーニング速度を向上させることである。
しかし、既存の混合精度トレーニング技術は標準ニューラルネットワーク用に設計されており、FNOへの直接適用は数値オーバーフローとメモリ効率の低下につながる。
さらに、一見すると、FNOの混合精度はフーリエ変換の精度を低下させるため、古典的な数値解法では不十分な結果をもたらすと考えられる。
実のところ、FNOの精度の低下は、目標とする方法で行うと、良い近似境界が保証されることを証明している。
具体的には、ニューラルネットワーク学習が本質的に近似誤差を誘導する直感に基づいて、無限次元の接地構造入力関数の離散化から生じるものであり、完全精度でのトレーニングは不要であることを示す。
この直観は、FNOの近似と精度の誤差を厳格に評価し、一般的な入力関数にこれらの誤差を限定することによって定式化する。
精度誤差は近似誤差と漸近的に同等であることを示す。
そこで本研究では,メモリ集約型半精度テンソル収縮を最適化する簡単な手法を設計する。
さまざまな最先端のニューラル演算子、データセット、GPUに関する広範な実験を通じて、我々のアプローチはGPUメモリ使用量を最大50%削減し、スループットを58%向上する。
Neural operators, such as Fourier Neural Operators (FNO), form a principled approach for learning solution operators for PDEs and other mappings between function spaces. However, many real-world problems require high-resolution training data, and the training time and limited GPU memory pose big barriers. One solution is to train neural operators in mixed precision to reduce the memory requirement and increase training speed. However, existing mixed-precision training techniques are designed for standard neural networks, and we find that their direct application to FNO leads to numerical overflow and poor memory efficiency. Further, at first glance, it may appear that mixed precision in FNO will lead to drastic accuracy degradation since reducing the precision of the Fourier transform yields poor results in classical numerical solvers. We show that this is not the case; in fact, we prove that reducing the precision in FNO still guarantees a good approximation bound, when done in a targeted manner. Specifically, we build on the intuition that neural operator learning inherently induces an approximation error, arising from discretizing the infinite-dimensional ground-truth input function, implying that training in full precision is not needed. We formalize this intuition by rigorously characterizing the approximation and precision errors of FNO and bounding these errors for general input functions. We prove that the precision error is asymptotically comparable to the approximation error. Based on this, we design a simple method to optimize the memory-intensive half-precision tensor contractions by greedily finding the optimal contraction order. Through extensive experiments on different state-of-the-art neural operators, datasets, and GPUs, we demonstrate that our approach reduces GPU memory usage by up to 50% and improves throughput by 58% with little or no reduction in accuracy. | 翻訳日:2024-05-08 01:06:19 公開日:2024-05-05 |
# Retroformer: ポリシーグラディエント最適化を備えたレトロスペクティブ型大規模言語エージェント
Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization ( http://arxiv.org/abs/2308.02151v3 ) ライセンス: Link先を確認 | Weiran Yao, Shelby Heinecke, Juan Carlos Niebles, Zhiwei Liu, Yihao Feng, Le Xue, Rithesh Murthy, Zeyuan Chen, Jianguo Zhang, Devansh Arpit, Ran Xu, Phil Mui, Huan Wang, Caiming Xiong, Silvio Savarese, | (参考訳) 近年,大規模言語モデル (LLM) が,人からの問い合わせに応答するのではなく,客観的な多段階タスクを単独で実行可能な自律型言語エージェントに拡張される,強力な新しいトレンドが出現している。
しかし、既存の言語エージェントのほとんどは、環境固有の報酬を使って最適化されていない。
一部のエージェントは、言葉によるフィードバックを通じて反復的な洗練を可能にするが、報酬からの勾配に基づく学習と互換性のある方法では、推論や計画を行わない。
本稿では,言語エージェントが環境フィードバックからポリシーグラデーションを通じて自動的に調整するリフレクションモデルを学習することで,大規模言語エージェントの強化のための原則的フレームワークを提案する。
特に,提案するエージェントアーキテクチャは,複数の環境やタスクにわたる報酬から学習し,事前失敗した試みの根本原因を要約し,行動計画を提案することで,言語エージェントのプロンプトを洗練させる事前学習言語モデルを微調整する。
様々なタスクに対する実験結果から,言語エージェントは時間とともに改善し,環境からの勾配を適切に活用しないベースラインをかなり上回っていることがわかった。
これは、ポリシー勾配の最適化を使用して言語エージェントを改善することを示し、私たちの作業が最初の1つだと信じており、エージェントアーキテクチャの他のモデルを最適化してエージェントのパフォーマンスを時間とともに向上させることに期待できる。
Recent months have seen the emergence of a powerful new trend in which large language models (LLMs) are augmented to become autonomous language agents capable of performing objective oriented multi-step tasks on their own, rather than merely responding to queries from human users. Most existing language agents, however, are not optimized using environment-specific rewards. Although some agents enable iterative refinement through verbal feedback, they do not reason and plan in ways that are compatible with gradient-based learning from rewards. This paper introduces a principled framework for reinforcing large language agents by learning a retrospective model, which automatically tunes the language agent prompts from environment feedback through policy gradient. Specifically, our proposed agent architecture learns from rewards across multiple environments and tasks, for fine-tuning a pre-trained language model which refines the language agent prompt by summarizing the root cause of prior failed attempts and proposing action plans. Experimental results on various tasks demonstrate that the language agents improve over time and that our approach considerably outperforms baselines that do not properly leverage gradients from the environment. This demonstrates that using policy gradient optimization to improve language agents, for which we believe our work is one of the first, seems promising and can be applied to optimize other models in the agent architecture to enhance agent performances over time. | 翻訳日:2024-05-08 01:06:19 公開日:2024-05-05 |
# ML対応ソフトウェア構築におけるVモデルの探索的研究:システム工学的視点
An Exploratory Study of V-Model in Building ML-Enabled Software: A Systems Engineering Perspective ( http://arxiv.org/abs/2308.05381v4 ) ライセンス: Link先を確認 | Jie JW Wu, | (参考訳) 機械学習(ML)コンポーネントは、ますます重要で影響力のあるソフトウェアシステムに追加されているが、プロトタイプのMLモデルから現実のプロダクションシステムのソフトウェア開発プロセスは、さらなる複雑さと学際的なコラボレーションの課題によって、依然として困難である。
これは、ML対応システムを構築する際に、ウォーターフォール、スパイラル、アジャイルモデルといった従来のソフトウェアライフサイクルモデルを使用することに困難をもたらす。
本研究では,ML対応システムを構築する際の学際的コラボレーション課題に対処するために,システム工学のレンズを用いて,V-Modelの使用について検討する。
ソフトウェア企業の実践者たちにインタビューすることで、MLコンポーネントで製品を構築する際に、V-Modelを使って学際的なコラボレーションを管理するための8つの提案を確立しました。
これらの提案に基づき, ML 対応システムの構築において, V-Model の特徴が, 実践者が遭遇するいくつかのコラボレーション課題と効果的に一致していることが判明した。
ML対応システム構築のためのシステム分解やシステム境界の明確化,検証検証(V&V)の整合性といった,Vモデルの特徴を活用する新たなプロセスモデル,フレームワーク,ツールについて,今後の研究を推奨する。
Machine learning (ML) components are being added to more and more critical and impactful software systems, but the software development process of real-world production systems from prototyped ML models remains challenging with additional complexity and interdisciplinary collaboration challenges. This poses difficulties in using traditional software lifecycle models such as waterfall, spiral, or agile models when building ML-enabled systems. In this research, we apply a Systems Engineering lens to investigate the use of V-Model in addressing the interdisciplinary collaboration challenges when building ML-enabled systems. By interviewing practitioners from software companies, we established a set of 8 propositions for using V-Model to manage interdisciplinary collaborations when building products with ML components. Based on the propositions, we found that despite requiring additional efforts, the characteristics of V-Model align effectively with several collaboration challenges encountered by practitioners when building ML-enabled systems. We recommend future research to investigate new process models, frameworks and tools that leverage the characteristics of V-Model such as the system decomposition, clear system boundary, and consistency of Validation & Verification (V&V) for building ML-enabled systems. | 翻訳日:2024-05-08 01:06:19 公開日:2024-05-05 |
# 漸近的および触媒的変換における量子コヒーレンスの任意増幅
Arbitrary Amplification of Quantum Coherence in Asymptotic and Catalytic Transformation ( http://arxiv.org/abs/2308.12338v2 ) ライセンス: Link先を確認 | Naoto Shiraishi, Ryuji Takagi, | (参考訳) 量子コヒーレンス(quantum coherence)は、古典理論と量子理論を区別する基本的な側面の1つである。
異なるエネルギー固有状態間のコヒーレンス(英語版)は特に重要であり、エネルギー保存の法則の下で貴重な資源として機能する。
この設定における基本的な問題は、低いコヒーレント状態から良質なコヒーレント状態がどれだけうまく準備できるか、そして与えられたコヒーレント状態が他の状態に変換可能であるかどうかである。
ここでは,低コヒーレント状態が任意の高コヒーレント状態に任意に変換可能であることを示す。
局所サブシステムにおける所望の状態の準備を目的とした漸近的コヒーレンス操作の変種の場合、初期コヒーレンスがどれほど弱いかに関わらず、変換の速度は非有界となる。
触媒を用いた非漸近変換において、変換後の原形に局所的に残るヘルパー状態は、任意の状態が任意の低コヒーレント状態から得られることを示す。
これを標準的な漸近条件に適用すると、触媒はコヒーレンス蒸留率を0から無限に大きく向上させることができる。
また、このような異常な変換は、関連するモードでは小さいがゼロでないコヒーレンスを必要とすることを証明し、運用能力の急激な遷移が生じる条件を確立する。
本研究は,これらの運用環境におけるコヒーレンス・トランスフォーマビリティの一般的な特徴と,絡み合いや量子熱力学といった他の一般的な資源理論と比較して,その特異性を示すものである。
Quantum coherence is one of the fundamental aspects distinguishing classical and quantum theories. Coherence between different energy eigenstates is particularly important, as it serves as a valuable resource under the law of energy conservation. A fundamental question in this setting is how well one can prepare good coherent states from low coherent states and whether a given coherent state is convertible to another one. Here, we show that any low coherent state is convertible to any high coherent state arbitrarily well in two operational settings: asymptotic and catalytic transformations. For a variant of asymptotic coherence manipulation where one aims to prepare desired states in local subsystems, the rate of transformation becomes unbounded regardless of how weak the initial coherence is. In a non-asymptotic transformation with a catalyst, a helper state that locally remains in the original form after the transformation, we show that an arbitrary state can be obtained from any low coherent state. Applying this to the standard asymptotic setting, we find that a catalyst can increase the coherence distillation rate significantly -- from zero to infinite rate. We also prove that such anomalous transformation requires small but non-zero coherence in relevant modes, establishing the condition under which a sharp transition of the operational capability occurs. Our results provide a general characterization of the coherence transformability in these operational settings and showcase their peculiar properties compared to other common resource theories such as entanglement and quantum thermodynamics. | 翻訳日:2024-05-08 01:06:19 公開日:2024-05-05 |
# トランスファーブルローカルポリシを用いた車両ルーティング問題に対する一般化可能なニューラルソルバーの実現に向けて
Towards Generalizable Neural Solvers for Vehicle Routing Problems via Ensemble with Transferrable Local Policy ( http://arxiv.org/abs/2308.14104v3 ) ライセンス: Link先を確認 | Chengrui Gao, Haopu Shang, Ke Xue, Dong Li, Chao Qian, | (参考訳) 機械学習はNPハードな組合せ最適化問題を解決するのに役立っている。
一般的な方法の1つはディープニューラルネットワークによるソリューション構築の学習である。
しかし、車両ルーティング問題(VRP)のための多くのニューラルネットワーク構築手法は、特定のノード分布と限られたスケールを持つ合成問題インスタンスに焦点を合わせており、通常は複雑で未知のノード分布と大規模なノード分布を含む実世界の問題では性能が劣る。
ニューラルVRPソルバをより実用的なものにするために,局所移動可能なトポロジカルな特徴から学習する補助ポリシーを設計し,それを典型的な建設方針(VRPインスタンスのグローバルな情報から学習する)と統合し,アンサンブルポリシーを形成する。
共同トレーニングでは、集約されたポリシが協調的かつ補完的に実行され、一般化が促進される。
TSPLIBとCVRPLIBの2つのよく知られたベンチマークの結果、旅行セールスマン問題と静電容量化VRPは、アンサンブルポリシーがクロスディストリビューションとクロススケールの一般化性能の両方を著しく改善し、数千ノードの現実世界問題でもうまく機能することを示した。
Machine learning has been adapted to help solve NP-hard combinatorial optimization problems. One prevalent way is learning to construct solutions by deep neural networks, which has been receiving more and more attention due to the high efficiency and less requirement for expert knowledge. However, many neural construction methods for Vehicle Routing Problems~(VRPs) focus on synthetic problem instances with specified node distributions and limited scales, leading to poor performance on real-world problems which usually involve complex and unknown node distributions together with large scales. To make neural VRP solvers more practical, we design an auxiliary policy that learns from the local transferable topological features, named local policy, and integrate it with a typical construction policy (which learns from the global information of VRP instances) to form an ensemble policy. With joint training, the aggregated policies perform cooperatively and complementarily to boost generalization. The experimental results on two well-known benchmarks, TSPLIB and CVRPLIB, of travelling salesman problem and capacitated VRP show that the ensemble policy significantly improves both cross-distribution and cross-scale generalization performance, and even performs well on real-world problems with several thousand nodes. | 翻訳日:2024-05-08 00:55:03 公開日:2024-05-05 |
# Tetris:量子コンピューティングにおけるVQAアプリケーションのためのコンパイルフレームワーク
Tetris: A Compilation Framework for VQA Applications in Quantum Computing ( http://arxiv.org/abs/2309.01905v2 ) ライセンス: Link先を確認 | Yuwei Jin, Zirui Li, Fei Hua, Tianyi Hao, Huiyang Zhou, Yipeng Huang, Eddy Z. Zhang, | (参考訳) 量子コンピューティングは、重ね合わせと絡み合いの原理を活用することで複雑な問題を解くことを約束している。
変分量子アルゴリズム(VQA)は、量子ビットの質素な要求と計算深度のために、短期量子コンピュータに適したアルゴリズムのクラスである。
本稿では,短期量子デバイス上でのVQAアプリケーションのためのコンパイルフレームワークであるTetrisを紹介する。
テトリスは、2つのキュービットゲートが1つのキュービットゲートよりも桁違いに大きなエラーと実行時間を持つため、コンパイルプロセスにおいて2つのキュービットゲートを減らすことに重点を置いている。
テトリスは、2つのキュービットゲートの数を減らすために、最先端のVQAコンパイラによって見落とされがちな回路合成段階におけるユニークな機会を利用する。
テトリスは2キュービットゲート最適化の機会を表現するために、パウリ弦の洗練されたIRを備える。
さらにTetrisは、ハードウェアマッピングコストを軽減する高速ブリッジングアプローチを備えている。
全体として、テトリスはCNOTゲート数で41.3%、回路深さで37.9%、異なるサイズと構造を持つ様々な分子の回路長で42.6%の減少を示した。
Tetrisはこのリンクでオープンソース化されている。
Quantum computing has shown promise in solving complex problems by leveraging the principles of superposition and entanglement. Variational quantum algorithms (VQA) are a class of algorithms suited for near term quantum computers due to their modest requirements of qubits and depths of computation. This paper introduces Tetris, a compilation framework for VQA applications on near term quantum devices. Tetris focuses on reducing two qubit gates in the compilation process since a two qubit gate has an order of magnitude more significant error and execution time than a single qubit gate. Tetris exploits unique opportunities in the circuit synthesis stage often overlooked by the state of the art VQA compilers for reducing the number of two qubit gates. Tetris comes with a refined IR of Pauli string to express such a two qubit gate optimization opportunity. Moreover, Tetris is equipped with a fast bridging approach that mitigates the hardware mapping cost. Overall, Tetris demonstrates a reduction of up to 41.3 percent in CNOT gate counts, 37.9 percent in circuit depth, and 42.6 percent in circuit duration for various molecules of different sizes and structures compared with the state-of-the-art approaches. Tetris is open-sourced at this link. | 翻訳日:2024-05-08 00:55:03 公開日:2024-05-05 |
# 雑音測定によるネットワーク推論強化の機械学習
Machine learning of network inference enhancement from noisy measurements ( http://arxiv.org/abs/2309.02050v2 ) ライセンス: Link先を確認 | Kai Wu, Yuanyuan Li, Jing Liu, | (参考訳) 観測された時系列データからネットワークを推定すると、ノード間の相互接続が明らかになる。
実世界のオープンケースを扱う場合,特に観測ノイズの存在下では,ネットワーク推論モデルの性能が著しく低下し,実用性が著しく低下する。
実世界のシナリオでは、ノイズの多いサンプルがネットワーク推論モデルにおけるパラメータの更新を引き起こし、正しい方向から逸脱し、性能が低下する。
本稿では,実世界のケースを対象としたモデルベースおよびモデルフリーネットワーク推論モデルの能力を増幅するための,エレガントで効率的なモデルに依存しないフレームワークを提案する。
非線形力学、進化ゲーム、パンデミック拡散に関する広範な実験は、様々なノイズタイプ、特にクリーンサンプルで富んだシナリオにおいて、顕著なパフォーマンス向上を示す。
Inferring networks from observed time series data presents a clear glimpse into the interconnections among nodes. Network inference models, when dealing with real-world open cases, especially in the presence of observational noise, experience a sharp decline in performance, significantly undermining their practical applicability. We find that in real-world scenarios, noisy samples cause parameter updates in network inference models to deviate from the correct direction, leading to a degradation in performance. Here, we present an elegant and efficient model-agnostic framework tailored to amplify the capabilities of model-based and model-free network inference models for real-world cases. Extensive experiments across nonlinear dynamics, evolutionary games, and epidemic spreading, showcases substantial performance augmentation under varied noise types, particularly thriving in scenarios enriched with clean samples. | 翻訳日:2024-05-08 00:55:03 公開日:2024-05-05 |
# コンプレクトンシフト作用素のスペクトル収束
Spectral Convergence of Complexon Shift Operators ( http://arxiv.org/abs/2309.07169v4 ) ライセンス: Link先を確認 | Purui Zhang, Xingchao Jian, Feng Ji, Wee Peng Tay, Bihan Wen, | (参考訳) トポロジカル信号処理(TSP)は、単純錯体を用いて、頂点や辺よりも高次構造をモデル化する。
本稿では, 一般化された高次グラフトンを用いたTSPの転送可能性について検討する。
複素数列 [1] の極限としての複素数列の概念を思い出す。
グラフオンシフト演算子とメッセージパスニューラルネットワークにインスパイアされた我々は、コンプレクトンから可能なすべての次元の成分に基づいて、限界複素数および複素数シフト演算子(CSO)を構築した。
我々はCSOの固有値と固有ベクトルを調査し、それらを重み付き隣接行列の新しい族に関連付ける。
単純複素信号列が複素数信号に収束すると、対応するCSOの固有値、固有空間、フーリエ変換が極限複素数信号の信号に収束することを示す。
この結論は2つの数値実験によってさらに検証される。
これらの結果は, グラファイト信号処理フレームワークを一般化した, 大きな単純複素数あるいは単純複素数列上の伝達可能性の学習を示唆している。
Topological Signal Processing (TSP) utilizes simplicial complexes to model structures with higher order than vertices and edges. In this paper, we study the transferability of TSP via a generalized higher-order version of graphon, known as complexon. We recall the notion of a complexon as the limit of a simplicial complex sequence [1]. Inspired by the graphon shift operator and message-passing neural network, we construct a marginal complexon and complexon shift operator (CSO) according to components of all possible dimensions from the complexon. We investigate the CSO's eigenvalues and eigenvectors and relate them to a new family of weighted adjacency matrices. We prove that when a simplicial complex signal sequence converges to a complexon signal, the eigenvalues, eigenspaces, and Fourier transform of the corresponding CSOs converge to that of the limit complexon signal. This conclusion is further verified by two numerical experiments. These results hint at learning transferability on large simplicial complexes or simplicial complex sequences, which generalize the graphon signal processing framework. | 翻訳日:2024-05-08 00:55:03 公開日:2024-05-05 |
# SaferAdを用いたEthereumにおける非対称メムプールDoSの定義と防止
Defining and Preventing Asymmetric Mempool DoS in Ethereum with saferAd ( http://arxiv.org/abs/2309.11721v4 ) ライセンス: Link先を確認 | Wanning Ding, Yibo Wang, Yuzhe Tang, | (参考訳) 本稿では,非対称DoS攻撃下での安全なメムプール設計を提案する。
安全定義を2つの抽象的なDoSe、すなわち退行攻撃とロック攻撃で定式化する。
本稿では,メムプール保護のための安全な取引許可フレームワークであるSaferAdを提案する。
証明されたセキュリティは、DoSeのロックによる攻撃損傷の上限と、DoSeの排除による攻撃コストの下限に起因している。
実際のトランザクショントレースの再生による評価は、SaferAdが無視可能なレイテンシーやバリデータ収益の重要変更を引き起こすことを示している。
This paper presents secure mempool designs under asymmetric DoS attacks. We formulate safety definitions under two abstract DoSes, namely eviction- and locking-based attacks. We propose a safe transaction admission framework for securing mempools, named saferAd, that achieves both eviction- and locking-safety. The proven security stems from an upper bound of the attack damage under locking DoSes and a lower bound of the attack cost under eviction DoSes. The evaluation by replaying real transaction traces shows saferAd incurs negligible latency or insignificant change of validator revenue. | 翻訳日:2024-05-08 00:55:03 公開日:2024-05-05 |
# PLMM:モバイルデバイス上の個人用大規模言語モデル
PLMM: Personal Large Language Models on Mobile Devices ( http://arxiv.org/abs/2309.14726v2 ) ライセンス: Link先を確認 | Yuanhao Gong, | (参考訳) フェデレートラーニング(Federated Learning)にインスパイアされた本論文では,従来の大規模言語モデルから抽出された個人用大規模モデルを提案する。
私たちは、大きな言語モデルを、個人レベル、専門家レベル、伝統的なレベルという3つのレベルに分類します。
個人レベルのモデルは、ユーザの個人情報に適応する。
ユーザの入力を暗号化し、プライバシを保護する。
エキスパートレベルのモデルでは、金融、IT、アートといった特定の知識を統合することに重点を置いています。
従来のモデルは、普遍的な知識発見とエキスパートモデルのアップグレードに重点を置いている。
このような分類では、個人モデルはユーザーと直接対話する。
システム全体では、パーソナルモデルはユーザの(暗号化された)個人情報を持っている。
さらに、そのようなモデルはパーソナルコンピュータやモバイルデバイスで実行するのに十分な大きさでなければならない。
最後に、より優れたユーザエクスペリエンスと高品質な結果を得るためには、リアルタイムに応答する必要がある。
提案した個人用大規模モデルは、言語や視覚タスクなど幅広い応用に適用できる。
Inspired by Federated Learning, in this paper, we propose personal large models that are distilled from traditional large language models but more adaptive to local users' personal information such as education background and hobbies. We classify the large language models into three levels: the personal level, expert level and traditional level. The personal level models are adaptive to users' personal information. They encrypt the users' input and protect their privacy. The expert level models focus on merging specific knowledge such as finance, IT and art. The traditional models focus on the universal knowledge discovery and upgrading the expert models. In such classifications, the personal models directly interact with the user. For the whole system, the personal models have users' (encrypted) personal information. Moreover, such models must be small enough to be performed on personal computers or mobile devices. Finally, they also have to response in real-time for better user experience and produce high quality results. The proposed personal large models can be applied in a wide range of applications such as language and vision tasks. | 翻訳日:2024-05-08 00:55:03 公開日:2024-05-05 |
# 農業における異種データアンサンブル学習による作物・雑草の検出の改善
Improved Crop and Weed Detection with Diverse Data Ensemble Learning in Agriculture ( http://arxiv.org/abs/2310.01055v2 ) ライセンス: Link先を確認 | Muhammad Hamza Asad, Saeed Anwar, Abdul Bais, | (参考訳) 現代の農業は、現場における作物や雑草の正確な検出、局在化、定量化を必要とするサイト・スペシャル・ファーム・マネジメントの実践に大きく依存しており、深層学習技術を用いて達成することができる。
この点において、作物と雑草特有の二分法モデルが有望であることが示されている。
しかし、制御されていないフィールド条件は、その性能をあるフィールドから別のフィールドに制限する。
セマンティックモデル一般化を改善するため、既存の手法は、制御不能なフィールド条件を考慮した農業データを増強し、合成する。
しかし、非常に多様な場条件が与えられた場合、これらの方法には制限がある。
このような条件下でのモデル劣化の課題を克服するために,本研究では,他の作物や雑草に特有のデータを活用することを提案する。
そこで我々は,新しいアンサンブル・フレームワークを提案する。
我々のアプローチは、多様なデータセットで訓練された異なる作物と雑草モデルを活用することと、教師の学生構成を採用することである。
ベースモデルの均質な積み重ねとトレーニング可能なメタアーキテクチャを用いて出力を結合することにより、単一セマンティックセグメンテーションモデルの性能を超越した、見えないテストデータ上でのカノーラの作物とコチアの雑草に大きな改善が達成される。
この文脈では、UNETメタアーキテクチャが最も効果的であると考えています。
最後に、アブレーション研究を通じて、提案モデルの有効性を実証し、検証する。
我々は、他の標的作物や雑草で訓練されたベースモデルを含め、様々なフィールド条件を捉えるためにモデルを一般化するのに役立つことを観察する。
最後に,比較条件の異なる2つの新しいデータセットを提案する。
Modern agriculture heavily relies on Site-Specific Farm Management practices, necessitating accurate detection, localization, and quantification of crops and weeds in the field, which can be achieved using deep learning techniques. In this regard, crop and weed-specific binary segmentation models have shown promise. However, uncontrolled field conditions limit their performance from one field to the other. To improve semantic model generalization, existing methods augment and synthesize agricultural data to account for uncontrolled field conditions. However, given highly varied field conditions, these methods have limitations. To overcome the challenges of model deterioration in such conditions, we propose utilizing data specific to other crops and weeds for our specific target problem. To achieve this, we propose a novel ensemble framework. Our approach involves utilizing different crop and weed models trained on diverse datasets and employing a teacher-student configuration. By using homogeneous stacking of base models and a trainable meta-architecture to combine their outputs, we achieve significant improvements for Canola crops and Kochia weeds on unseen test data, surpassing the performance of single semantic segmentation models. We identify the UNET meta-architecture as the most effective in this context. Finally, through ablation studies, we demonstrate and validate the effectiveness of our proposed model. We observe that including base models trained on other target crops and weeds can help generalize the model to capture varied field conditions. Lastly, we propose two novel datasets with varied conditions for comparisons. | 翻訳日:2024-05-08 00:45:15 公開日:2024-05-05 |
# 意味不明な文脈にロバストな検索言語モデルの構築
Making Retrieval-Augmented Language Models Robust to Irrelevant Context ( http://arxiv.org/abs/2310.01558v2 ) ライセンス: Link先を確認 | Ori Yoran, Tomer Wolfson, Ori Ram, Jonathan Berant, | (参考訳) Retrieval-augmented Language Model (RALM) は、事実、効率的、最新の言語理解システムを作成することを約束している。
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立ち、そうでない場合にはパフォーマンスを害しないことである。
これは、無関係な証拠の誤用がカスケードエラーを引き起こす、マルチホップ推論シナリオにおいて特に重要である。
しかし,近年の研究では,検索の増大が性能に悪影響を及ぼすことが示されている。
本研究では,5つのオープンドメイン質問応答ベンチマークを網羅的に分析し,検索精度が低下するケースを特徴付ける。
次にこの問題を緩和する2つの方法を提案する。
まず、自然言語推論(NLI)モデルに従って質問応答ペアを含まない検索されたパスをフィルタリングする単純なベースライン。
これは性能低下を防ぐのに有効であるが、関連する通路を廃棄するコストもかかる。
そこで本研究では,学習時に関連するコンテキストと無関係なコンテキストを混在させて,検索したパスを適切に活用するために,言語モデルを微調整するデータの自動生成手法を提案する。
経験的に、1000の例でも、関連する例では高いパフォーマンスを維持しながら、無関係なコンテキストに対して堅牢なモデルをトレーニングするのに十分であることを示す。
Retrieval-augmented language models (RALMs) hold promise to produce language understanding systems that are are factual, efficient, and up-to-date. An important desideratum of RALMs, is that retrieved information helps model performance when it is relevant, and does not harm performance when it is not. This is particularly important in multi-hop reasoning scenarios, where misuse of irrelevant evidence can lead to cascading errors. However, recent work has shown that retrieval augmentation can sometimes have a negative effect on performance. In this work, we present a thorough analysis on five open-domain question answering benchmarks, characterizing cases when retrieval reduces accuracy. We then propose two methods to mitigate this issue. First, a simple baseline that filters out retrieved passages that do not entail question-answer pairs according to a natural language inference (NLI) model. This is effective in preventing performance reduction, but at a cost of also discarding relevant passages. Thus, we propose a method for automatically generating data to fine-tune the language model to properly leverage retrieved passages, using a mix of relevant and irrelevant contexts at training time. We empirically show that even 1,000 examples suffice to train the model to be robust to irrelevant contexts while maintaining high performance on examples with relevant ones. | 翻訳日:2024-05-08 00:45:15 公開日:2024-05-05 |
# 2層ネットワークにおける第1次相転移としてのグラッキング
Grokking as a First Order Phase Transition in Two Layer Networks ( http://arxiv.org/abs/2310.03789v3 ) ライセンス: Link先を確認 | Noa Rubin, Inbar Seroussi, Zohar Ringel, | (参考訳) ディープニューラルネットワーク(DNN)の重要な特性は、トレーニング中に新機能を学ぶ能力である。
このディープラーニングの興味深い側面は、最近報告されたGrokking現象において最も顕著である。
主にテスト精度の急上昇として反映されているが、Grokkingはまた、特徴学習を含む遅延学習/ガウス過程(GP)現象を超越していると考えられている。
本稿では, 機能学習理論, 適応カーネルアプローチの最近の発展を, 立方多項式とモジュラ付加の教師を持つ2つの教師学生モデルに適用する。
我々はこれらのモデルの特徴学習とグロキング特性の分析的予測を行い、グロキングと相転移の理論のマッピングを実証する。
我々は、Grokkingの後、DNNの状態が1次相転移後の混合相と類似していることを示す。
この混合フェーズでは、DNNは、移行前の教師と著しく異なる教師の内部表現を生成する。
A key property of deep neural networks (DNNs) is their ability to learn new features during training. This intriguing aspect of deep learning stands out most clearly in recently reported Grokking phenomena. While mainly reflected as a sudden increase in test accuracy, Grokking is also believed to be a beyond lazy-learning/Gaussian Process (GP) phenomenon involving feature learning. Here we apply a recent development in the theory of feature learning, the adaptive kernel approach, to two teacher-student models with cubic-polynomial and modular addition teachers. We provide analytical predictions on feature learning and Grokking properties of these models and demonstrate a mapping between Grokking and the theory of phase transitions. We show that after Grokking, the state of the DNN is analogous to the mixed phase following a first-order phase transition. In this mixed phase, the DNN generates useful internal representations of the teacher that are sharply distinct from those before the transition. | 翻訳日:2024-05-08 00:45:15 公開日:2024-05-05 |
# 量子重力におけるユニタリティのリアリスト解釈
A Realist Interpretation of Unitarity in Quantum Gravity ( http://arxiv.org/abs/2310.15157v4 ) ライセンス: Link先を確認 | Indrajit Sen, Stephon Alexander, Justin Dressel, | (参考訳) ユニタリティは、状態の非正規化性と時間の問題のため、正準量子重力において実装するのが難しい概念である。
パイロット波理論に基づく現実主義的アプローチを採用し、ホイーラー・デウィット方程式のアシュテカール定式化においてこの問題に対処する。
我々は,最近議論された重力-フェルミオン系の大域的時間を定義するために,理論における定配置の仮定を用いる(Phys)。
D 106.10 (2022): 106012) コダマ状態に依存するワイルスピナーの変種をパラメータ化する。
全ハミルトニアンの制約は、半古典的な近似を伴わない時間依存のシュロディンガー方程式となり、構成空間上の局所連続性方程式を導出する。
誘導方程式のレベルで現実条件を実装し,システム軌道に沿った実スピン接続,外在曲率,トライアドを得る。
誘導方程式からデシッター時空の量子補正を求める。
正規化不可能なコダマ状態は、保存された電流密度の完全な量子状態から自然に分解され、量子力学的ユニタリ性の可能性を開く。
また、非正規化可能な状態に適用可能なユニタリ性の概念をパイロット波で一般化し、システムに平衡密度が存在することを示す。
最後に、ハミルトニアン制約の近似解を見つけることにより、ミニ超空間におけるユニタリ状態を見つける。
Unitarity is a difficult concept to implement in canonical quantum gravity because of state non-normalizability and the problem of time. We take a realist approach based on pilot-wave theory to address this issue in the Ashtekar formulation of the Wheeler-DeWitt equation. We use the postulate of a definite configuration in the theory to define a global time for the gravitational-fermionic system recently discussed in (Phys. Rev. D 106.10 (2022): 106012), by parameterizing a variation of a Weyl-spinor that depends on the Kodama state. The total Hamiltonian constraint yields a time-dependent Schrodinger equation, without semi-classical approximations, which we use to derive a local continuity equation over the configuration space. We implement the reality conditions at the level of the guidance equation, and obtain a real spin-connection, extrinsic curvature and triad along the system trajectory. We obtain quantum corrections to deSitter spacetime from the guidance equation. The non-normalizable Kodama state is naturally factored out of the full quantum state in the conserved current density, opening the possibility for quantum-mechanical unitarity. We also give a pilot-wave generalisation of the notion of unitarity applicable to non-normalizable states, and show the existence of equilibrium density for our system. Lastly, we find unitary states in mini-superspace by finding an approximate solution to the Hamiltonian constraint. | 翻訳日:2024-05-08 00:35:16 公開日:2024-05-05 |
# 読解の可読性についての一考察 : 新たなデータセットを用いた実証的研究
Can LLMs Grade Short-Answer Reading Comprehension Questions : An Empirical Study with a Novel Dataset ( http://arxiv.org/abs/2310.18373v2 ) ライセンス: Link先を確認 | Owen Henkel, Libby Hills, Bill Roberts, Joshua McGrane, | (参考訳) オープンエンドの質問は、学生が多語で非自明な応答を生成することを要求するもので、学生が何をし、何を知らないかについてより具体的な洞察を提供するため、形式的評価のための一般的なツールである。
しかし、オープンエンドの質問を格上げすることは、教師がより単純な質問形式を取り入れたり、より少ない形式的な評価を行うのに時間を要する可能性がある。
ショート・アンサー・グレーディング(ASAG)の自動化に対する長年の関心はあったが、従来のアプローチは技術的に複雑であり、形式的アセスメントの文脈での使用を制限する。
最新のLarge Language Models(LLMs)は、短い回答の質問のグレーディングをより実現可能にする可能性がある。
本稿では,ASAG で使用される LLM の最新バージョンの可能性について検討する。
まず,ガーナの150人以上の学生を対象に,一組の読解アセスメントから得られた短い回答読解質問のデータセットを紹介する。
このデータセットは、高所得の北米諸国のデータに基づいて主に設計され、訓練されているため、新しい文脈におけるLCMの評価を可能にする。
第2に、本論文は、有能なヒトラッカーと比較して、生成性LLMの児童短解反応の様々な構成がいかに良好であるかを実証的に評価した。
その結果、GPT-4は最小限の急進的なエンジニアリングで、新しいデータセット(QWK 0.92, F1 0.89)のグレーティングにおいて極めてよく機能し、熟練したヒトのレイパーとほぼ同等に到達した。
我々の知る限り、本研究は、実際の学生データを用いた短い回答読解質問において、生成LDMの性能を実証的に評価する最初の試みであり、その性能を達成するための技術的ハードルは低い。
これらの結果から, 生成LDMは, 形式的リテラシー評価タスクの格付けに有効であることが示唆された。
Open-ended questions, which require students to produce multi-word, nontrivial responses, are a popular tool for formative assessment as they provide more specific insights into what students do and don't know. However, grading open-ended questions can be time-consuming leading teachers to resort to simpler question formats or conduct fewer formative assessments. While there has been a longstanding interest in automating of short-answer grading (ASAG), but previous approaches have been technically complex, limiting their use in formative assessment contexts. The newest generation of Large Language Models (LLMs) potentially makes grading short answer questions more feasible. This paper investigates the potential for the newest version of LLMs to be used in ASAG, specifically in the grading of short answer questions for formative assessments, in two ways. First, it introduces a novel dataset of short answer reading comprehension questions, drawn from a set of reading assessments conducted with over 150 students in Ghana. This dataset allows for the evaluation of LLMs in a new context, as they are predominantly designed and trained on data from high-income North American countries. Second, the paper empirically evaluates how well various configurations of generative LLMs grade student short answer responses compared to expert human raters. The findings show that GPT-4, with minimal prompt engineering, performed extremely well on grading the novel dataset (QWK 0.92, F1 0.89), reaching near parity with expert human raters. To our knowledge this work is the first to empirically evaluate the performance of generative LLMs on short answer reading comprehension questions using real student data, with low technical hurdles to attaining this performance. These findings suggest that generative LLMs could be used to grade formative literacy assessment tasks. | 翻訳日:2024-05-08 00:35:15 公開日:2024-05-05 |
# 自己監督型表現学習における線形分離能力について
On Linear Separation Capacity of Self-Supervised Representation Learning ( http://arxiv.org/abs/2310.19041v2 ) ライセンス: Link先を確認 | Shulei Wang, | (参考訳) 自己教師型学習の最近の進歩は、ラベルのないデータからデータ表現を学習する際のデータ拡張の有効性を強調している。
これらの拡張表現の上に線形モデルをトレーニングすると、アデプト分類子が得られる。
顕著な経験的性能にもかかわらず、非線形データ構造を線形に分離可能な表現に変換するためのデータ拡張を可能にするメカニズムは、まだ解明されていない。
本稿では,マルチ多様体モデルからデータを引き出す際に,学習した表現が多様体を線形に分離できる条件について検討することで,このギャップを埋めることを模索する。
本研究は,データ拡張が観測データ以上の情報を提供し,線形分離能力の情報理論的最適率を向上させることを明らかにする。
特に,教師なし学習よりも小さい距離の多様体を線形に分離できることを示す。
我々の理論的分析は、下流線形分類器の性能は、ラベル付きデータセットのサイズではなく、データ表現の線形分離性に基づいており、拡張性のないラベル付きデータセットの中で、限られたラベル付きデータで効率的な分類器を構築することが可能であることを再確認している。
Recent advances in self-supervised learning have highlighted the efficacy of data augmentation in learning data representation from unlabeled data. Training a linear model atop these enhanced representations can yield an adept classifier. Despite the remarkable empirical performance, the underlying mechanisms that enable data augmentation to unravel nonlinear data structures into linearly separable representations remain elusive. This paper seeks to bridge this gap by investigating under what conditions learned representations can linearly separate manifolds when data is drawn from a multi-manifold model. Our investigation reveals that data augmentation offers additional information beyond observed data and can thus improve the information-theoretic optimal rate of linear separation capacity. In particular, we show that self-supervised learning can linearly separate manifolds with a smaller distance than unsupervised learning, underscoring the additional benefits of data augmentation. Our theoretical analysis further underscores that the performance of downstream linear classifiers primarily hinges on the linear separability of data representations rather than the size of the labeled data set, reaffirming the viability of constructing efficient classifiers with limited labeled data amid an expansive unlabeled data set. | 翻訳日:2024-05-08 00:35:15 公開日:2024-05-05 |
# QualEval: モデル改善のための質的な評価
QualEval: Qualitative Evaluation for Model Improvement ( http://arxiv.org/abs/2311.02807v2 ) ライセンス: Link先を確認 | Vishvak Murahari, Ameet Deshpande, Peter Clark, Tanmay Rajpurohit, Ashish Sabharwal, Karthik Narasimhan, Ashwin Kalyan, | (参考訳) 定量的評価指標は、伝統的に、大規模言語モデル(LLM)を含む人工知能システムの進歩を測る上で重要な役割を果たしてきた。
しかし、これらの指標には固有の制限がある。
実世界のタスクの複雑な性質を考えると、モデル行動のきめ細かいニュアンスを捉えるには、定量化と比較のための単一のスカラーが不十分である。
メトリクスはモデルの比較とベンチマークの手段としてのみ機能し、実用的な診断を与えないため、モデル改善プロセスは困難である。
モデル開発者は、膨大なデータセットを精査し、データやセットアップをトレーニングするためのヒットまたはミスの調整を試みることを含む広範囲な手作業の中で、自分自身に気付きます。
本研究では,QualEvalをモデル改善のための手段として,自動定性評価によって定量的スカラーメトリクスを増大させる手法を提案することで,定量的メトリクスの欠点に対処する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、適用すればモデル改善を加速する人間可読な洞察を生成する。
これらの洞察は、詳細な視覚化と人間解釈可能な分析を備えた包括的なダッシュボードによって裏付けられている。
我々は,QualEvalの忠実さを,例えば,ベースラインと比較した場合の難解な対話課題(DialogSum)に対して,Llama 2モデルの絶対性能を最大15%向上させることを示すことによって,相関する。
QualEvalは、モデル開発のペースを向上し、本質的にはデータ科学者の箱として機能する。
現在の評価指標のクオリティ化と改善に重点を置いていることから,本手法はモデル評価と改善の両面において,新たな手法として機能する。
Quantitative evaluation metrics have traditionally been pivotal in gauging the advancements of artificial intelligence systems, including large language models (LLMs). However, these metrics have inherent limitations. Given the intricate nature of real-world tasks, a single scalar to quantify and compare is insufficient to capture the fine-grained nuances of model behavior. Metrics serve only as a way to compare and benchmark models, and do not yield actionable diagnostics, thus making the model improvement process challenging. Model developers find themselves amid extensive manual efforts involving sifting through vast datasets and attempting hit-or-miss adjustments to training data or setups. In this work, we address the shortcomings of quantitative metrics by proposing QualEval, which augments quantitative scalar metrics with automated qualitative evaluation as a vehicle for model improvement. QualEval uses a powerful LLM reasoner and our novel flexible linear programming solver to generate human-readable insights that when applied, accelerate model improvement. The insights are backed by a comprehensive dashboard with fine-grained visualizations and human-interpretable analyses. We corroborate the faithfulness of QualEval by demonstrating that leveraging its insights, for example, improves the absolute performance of the Llama 2 model by up to 15% points relative on a challenging dialogue task (DialogSum) when compared to baselines. QualEval successfully increases the pace of model development, thus in essence serving as a data-scientist-in-a-box. Given the focus on critiquing and improving current evaluation metrics, our method serves as a refreshingly new technique for both model evaluation and improvement. | 翻訳日:2024-05-08 00:25:31 公開日:2024-05-05 |
# 確率微分方程式を用いたニューラル構造学習
Neural Structure Learning with Stochastic Differential Equations ( http://arxiv.org/abs/2311.03309v2 ) ライセンス: Link先を確認 | Benjie Wang, Joel Jennings, Wenbo Gong, | (参考訳) 時間観測から変数間の基礎となる関係を明らかにすることは、生物学、金融学、気候科学を含む多くの科学分野において長年の課題であった。
このような系の力学は、しばしば連続時間確率過程を用いて記述される。
残念なことに、ほとんどの既存の構造学習アプローチは、基礎となるプロセスは離散時間で進化し、そして/または観測は定期的な時間間隔で起こると仮定している。
これらのミスマッチした仮定は、しばしば誤った学習された構造やモデルにつながる。
本研究では,ニューラル確率微分方程式 (SDE) と変分推論を組み合わせた構造学習手法 SCOTCH を提案する。
この連続的なアプローチは、任意の時点における観測からの学習と予測の両方を自然に処理することができる。
理論的には、SDEとSCOTCHが構造的に識別できる十分な条件を確立し、その一貫性を無限のデータ制限下で証明する。
実験により,本手法は,規則的,不規則なサンプリング間隔において,関連するベースラインと比較して,合成データセットと実世界のデータセットの両方における構造学習性能を向上させることを実証した。
Discovering the underlying relationships among variables from temporal observations has been a longstanding challenge in numerous scientific disciplines, including biology, finance, and climate science. The dynamics of such systems are often best described using continuous-time stochastic processes. Unfortunately, most existing structure learning approaches assume that the underlying process evolves in discrete-time and/or observations occur at regular time intervals. These mismatched assumptions can often lead to incorrect learned structures and models. In this work, we introduce a novel structure learning method, SCOTCH, which combines neural stochastic differential equations (SDE) with variational inference to infer a posterior distribution over possible structures. This continuous-time approach can naturally handle both learning from and predicting observations at arbitrary time points. Theoretically, we establish sufficient conditions for an SDE and SCOTCH to be structurally identifiable, and prove its consistency under infinite data limits. Empirically, we demonstrate that our approach leads to improved structure learning performance on both synthetic and real-world datasets compared to relevant baselines under regular and irregular sampling intervals. | 翻訳日:2024-05-08 00:25:31 公開日:2024-05-05 |
# スケーラブルで適応的にセキュアな分散キー生成とオールハンドチェックポイント
Scalable and Adaptively Secure Any-Trust Distributed Key Generation and All-hands Checkpointing ( http://arxiv.org/abs/2311.09592v3 ) ライセンス: Link先を確認 | Hanwen Feng, Tiancheng Mai, Qiang Tang, | (参考訳) 古典的な分散キー生成プロトコル(DKG)は、ブロックチェーンに広く応用されているため、復活している。
DKG通信を改善する努力が続けられているが、現実的な大規模展開は、敵の場合の重い計算や通信(特に放送)のオーバーヘッドなど、様々な課題のために、まだ実現されていない。
本稿では,Byzantineノードの最大容量に直面した場合でも,共通コインの助けを借りて(準)線形計算とノード単位の通信コストを実現するDLogベースの暗号システムのための実用的なDKGを提案する。
さらに、このプロトコルは適応的な敵に対して安全であり、全ノードの半分以下を破損させる可能性がある。
改善の鍵は、Any-Trustグループへの最もコストのかかるオペレーションと、適応的なセキュリティのための一連のテクニックを委譲することにあります。
このグループはランダムにサンプル化され、少数の個人から構成される。
人口はグループ内の少なくとも1人のメンバーが正直であるとのみ信じており、どのメンバーかは分かっていない。
さらに、参加者が異なる重みを持つ場合でも、従来の分散プロトコルであるDKGを効率的にデプロイできる汎用トランスフォーマーを提案する。
さらに、ブロックチェーンとデータ分散ネットワーク(IPFSなど)に基づいた拡張ブロードキャストチャンネルを導入し、一定のサイズのブロックチェーンストレージを犠牲にして、任意のサイズのメッセージの信頼性の高いブロードキャストを可能にする。
The classical distributed key generation protocols (DKG) are resurging due to their widespread applications in blockchain. While efforts have been made to improve DKG communication, practical large-scale deployments are still yet to come due to various challenges, including the heavy computation and communication (particularly broadcast) overhead in their adversarial cases. In this paper, we propose a practical DKG for DLog-based cryptosystems, which achieves (quasi-)linear computation and communication per-node cost with the help of a common coin, even in the face of the maximal amount of Byzantine nodes. Moreover, our protocol is secure against adaptive adversaries, which can corrupt less than half of all nodes. The key to our improvements lies in delegating the most costly operations to an Any-Trust group together with a set of techniques for adaptive security. This group is randomly sampled and consists of a small number of individuals. The population only trusts that at least one member in the group is honest, without knowing which one. Moreover, we present a generic transformer that enables us to efficiently deploy a conventional distributed protocol like our DKG, even when the participants have different weights. Additionally, we introduce an extended broadcast channel based on a blockchain and data dispersal network (such as IPFS), enabling reliable broadcasting of arbitrary-size messages at the cost of constant-size blockchain storage. | 翻訳日:2024-05-08 00:25:31 公開日:2024-05-05 |
# R-Tuning: 大きな言語モデルに“知らない”と言うように指示する
R-Tuning: Instructing Large Language Models to Say `I Don't Know' ( http://arxiv.org/abs/2311.09677v2 ) ライセンス: Link先を確認 | Hanning Zhang, Shizhe Diao, Yong Lin, Yi R. Fung, Qing Lian, Xingyao Wang, Yangyi Chen, Heng Ji, Tong Zhang, | (参考訳) 大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
主要な問題は、これらのモデルが存在しない事実を生成することの正当性であり、幻覚と呼ばれる懸念である。
本研究の動機は,従来の指導指導手法が,モデルが知識を知っているかどうかに関わらず,モデルに文章を完成させるよう強制することにある。
質問がパラメトリックな知識から外れた場合、何かを作り上げようと試み、それが知識を欠いていることを示そうとしないでしょう。
本稿では,Refusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しい手法を提案する。
このアプローチは、まず、事前訓練されたパラメータによって包含される知識の相違を、インストラクションチューニングデータと比較することによって定式化される。
そして,知識交叉に基づく拒絶認識データを構築し,そのパラメトリック知識を超えた質問への応答を抑えるためにLLMをチューニングする。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
さらに、ドメイン外のデータセットでテストすると、拒絶能力は他のタスクに一般化可能なメタスキルであることが判明した。
さらなる分析により、不確実性を学ぶことでキャリブレーションが向上し、不確実性ベースのテストよりも不確実性を評価する能力が改善されることがわかった。
私たちのコードはhttps://github.com/shizhediao/R-Tuning.comで公開されています。
Large language models (LLMs) have revolutionized numerous domains with their impressive performance but still face their challenges. A predominant issue is the propensity for these models to generate non-existent facts, a concern termed hallucination. Our research is motivated by the observation that previous instruction tuning methods force the model to complete a sentence no matter whether the model knows the knowledge or not. When the question is out of the parametric knowledge, it will try to make up something and fail to indicate when it lacks knowledge. In this paper, we present a new approach called Refusal-Aware Instruction Tuning (R-Tuning). This approach is formalized by first identifying the disparity in knowledge encompassed by pre-trained parameters compared to that of instruction tuning data. Then, we construct the refusal-aware data based on the knowledge intersection, to tune LLMs to refrain from responding to questions beyond its parametric knowledge. Experimental results demonstrate R-Tuning effectively improves a model's ability to answer known questions and refrain from answering unknown questions. Furthermore, when tested on out-of-domain datasets, the refusal ability was found to be a meta-skill that could be generalized to other tasks. Further analysis surprisingly finds that learning the uncertainty results in better calibration and an improved ability to estimate the uncertainty than uncertainty-based testing. Our code is available at https://github.com/shizhediao/R-Tuning. | 翻訳日:2024-05-08 00:25:31 公開日:2024-05-05 |
# 直交的専門家の混在によるマルチタスク強化学習
Multi-Task Reinforcement Learning with Mixture of Orthogonal Experts ( http://arxiv.org/abs/2311.11385v2 ) ライセンス: Link先を確認 | Ahmed Hendawy, Jan Peters, Carlo D'Eramo, | (参考訳) MTRL(Multi-Task Reinforcement Learning)は、様々な問題にまたがって一般化するスキルを持つエージェントを授けるという長年の問題に対処する。
この目的のために、表現の共有は、タスクのユニークな特徴と共通の特徴の両方をキャプチャする上で、基本的な役割を担っている。
タスクは、スキル、オブジェクト、または物理的特性の点で類似性を示すが、それらの表現を活用することで、普遍的なポリシーの達成が容易になる。
それでも、共有された多様な表現の集合を学ぶことの追求は、依然としてオープンな課題である。
本稿では,直交表現を用いてタスク間の共通構造をカプセル化して多様性を促進するMTRLにおける表現学習手法を提案する。
我々の手法はMixture Of Orthogonal Experts (MOORE) と呼ばれ、Gram-Schmidtプロセスを利用して、専門家の混合によって生成された表現の共有部分空間を形成する。
タスク固有の情報が提供されると、MOOREは、この共有部分空間から関連する表現を生成する。
提案手法の有効性をMiniGridとMetaWorldという2つのMTRLベンチマークで評価し,MOOREが関連するベースラインを超越し,MetaWorld上での新たな最先端結果を確立することを示す。
Multi-Task Reinforcement Learning (MTRL) tackles the long-standing problem of endowing agents with skills that generalize across a variety of problems. To this end, sharing representations plays a fundamental role in capturing both unique and common characteristics of the tasks. Tasks may exhibit similarities in terms of skills, objects, or physical properties while leveraging their representations eases the achievement of a universal policy. Nevertheless, the pursuit of learning a shared set of diverse representations is still an open challenge. In this paper, we introduce a novel approach for representation learning in MTRL that encapsulates common structures among the tasks using orthogonal representations to promote diversity. Our method, named Mixture Of Orthogonal Experts (MOORE), leverages a Gram-Schmidt process to shape a shared subspace of representations generated by a mixture of experts. When task-specific information is provided, MOORE generates relevant representations from this shared subspace. We assess the effectiveness of our approach on two MTRL benchmarks, namely MiniGrid and MetaWorld, showing that MOORE surpasses related baselines and establishes a new state-of-the-art result on MetaWorld. | 翻訳日:2024-05-08 00:25:31 公開日:2024-05-05 |
# MagicPose: アイデンティティを意識した拡散によるリアルな人間の可能性と表情のリターゲティング
MagicPose: Realistic Human Poses and Facial Expressions Retargeting with Identity-aware Diffusion ( http://arxiv.org/abs/2311.12052v3 ) ライセンス: Link先を確認 | Di Chang, Yichun Shi, Quankai Gao, Jessica Fu, Hongyi Xu, Guoxian Song, Qing Yan, Yizhe Zhu, Xiao Yang, Mohammad Soleymani, | (参考訳) 本研究では,2次元ポーズと表情再ターゲティングのための拡散モデルであるMagicPoseを提案する。
具体的には、参照画像が与えられた場合、ポーズや表情を制御し、アイデンティティを一定に保ちながら、人の新しいイメージを生成することを目的としている。
そこで本研究では,(1)外見制御ブロックの事前学習と(2)外見制御を学習することからなる,人間の動作と外観(表情,肌のトーン,ドレッシング)を両立させる2段階のトレーニング戦略を提案する。
我々の新しいデザインは、人体、顔の特徴、背景など、生成した人間の画像に対して堅牢な外観制御を可能にする。
画像拡散モデルの事前の知識を活用することで、MagicPoseは、追加の微調整を必要とせずに、目に見えない人間のアイデンティティや複雑なポーズをうまく一般化する。
さらに、提案モデルは使いやすく、安定拡散に対するプラグインモジュール/拡張と見なすことができる。
コードは、https://github.com/Boese0601/MagicDanceで入手できる。
In this work, we propose MagicPose, a diffusion-based model for 2D human pose and facial expression retargeting. Specifically, given a reference image, we aim to generate a person's new images by controlling the poses and facial expressions while keeping the identity unchanged. To this end, we propose a two-stage training strategy to disentangle human motions and appearance (e.g., facial expressions, skin tone and dressing), consisting of (1) the pre-training of an appearance-control block and (2) learning appearance-disentangled pose control. Our novel design enables robust appearance control over generated human images, including body, facial attributes, and even background. By leveraging the prior knowledge of image diffusion models, MagicPose generalizes well to unseen human identities and complex poses without the need for additional fine-tuning. Moreover, the proposed model is easy to use and can be considered as a plug-in module/extension to Stable Diffusion. The code is available at: https://github.com/Boese0601/MagicDance | 翻訳日:2024-05-08 00:25:31 公開日:2024-05-05 |
# 量子ラビモデル:Braakの予想に向けて
The Quantum Rabi model: Towards Braak's conjecture ( http://arxiv.org/abs/2311.12622v2 ) ライセンス: Link先を確認 | Zeév Rudnick, | (参考訳) 我々は、量子ラビモデルのスペクトルの微細構造に関するブラクの予想の密度1バージョンと、近辺のスペクトル領域におけるブラク、グイエン、レーズ・バストス、和歌山の最近の予想を確立する。
この証明は、 Boutet de Monvel と Zielinski による大きな固有値に対する3項の漸近展開と、一様分布論からの数論的な議論を用いる。
We establish a density one version of Braak's conjecture on the fine structure of the spectrum of the quantum Rabi model, as well as a recent conjecture of Braak, Nguyen, Reyes-Bustos and Wakayama on the nearest neighbor spacings of the spectrum. The proof uses a three-term asymptotic expansion for large eigenvalues due to Boutet de Monvel and Zielinski, and a number theoretic argument from uniform distribution theory. | 翻訳日:2024-05-08 00:15:17 公開日:2024-05-05 |
# 監視量子回路のランダム行列モデル
Random-matrix models of monitored quantum circuits ( http://arxiv.org/abs/2312.09216v2 ) ライセンス: Link先を確認 | Vir B. Bulchandani, S. L. Sondhi, J. T. Chalker, | (参考訳) 量子ビットの非構造系に対するハールランダムユニタリ力学と測度との競合について検討する。
プロジェクティブな測定のために、Kraus演算子の統計アンサンブルの様々な特性を解析的に導き出し、浄化時間とボルン確率の分布を導出する。
後者は、ランダムなユニタリ回路に対するポーター・トーマス分布をモニターされた設定に一般化し、長時間にログ正規化する。
また、アイデンティティ量子チャネルと射影測度を補間する弱い測度も検討する。
この設定では、乱れた量子ワイヤをモデル化するドロホフ・メロ・ペレイラ・クマール(DMPK)方程式に類似した、クラウス作用素の特異値の結合分布を正確に解けるフォッカー・プランク方程式を導出する。
これらの単純なシステムのために確立したクラウス作用素の統計的性質は、より一般的に監視された量子系の絡み合う位相のモデルとして機能することを期待する。
We study the competition between Haar-random unitary dynamics and measurements for unstructured systems of qubits. For projective measurements, we derive various properties of the statistical ensemble of Kraus operators analytically, including the purification time and the distribution of Born probabilities. The latter generalizes the Porter-Thomas distribution for random unitary circuits to the monitored setting and is log-normal at long times. We also consider weak measurements that interpolate between identity quantum channels and projective measurements. In this setting, we derive an exactly solvable Fokker-Planck equation for the joint distribution of singular values of Kraus operators, analogous to the Dorokhov-Mello-Pereyra-Kumar (DMPK) equation modelling disordered quantum wires. We expect that the statistical properties of Kraus operators we have established for these simple systems will serve as a model for the entangling phase of monitored quantum systems more generally. | 翻訳日:2024-05-08 00:15:17 公開日:2024-05-05 |
# ニューラル表現性を考慮したSO(3)-等価化:電子構造ハミルトニアン予測を目的としたハイブリッドディープラーニングフレームワーク
Harmonizing SO(3)-Equivariance with Neural Expressiveness: a Hybrid Deep Learning Framework Oriented to the Prediction of Electronic Structure Hamiltonian ( http://arxiv.org/abs/2401.00744v9 ) ライセンス: Link先を確認 | Shi Yin, Xinyang Pan, Xudong Zhu, Tianyu Gao, Haochong Zhang, Feng Wu, Lixin He, | (参考訳) 量子系の電子構造を予測するための深層学習 量子系のハミルトニアンは共分散法則を満たす必要があるが、ネットワークの非線形表現能力を犠牲にすることなくSO(3)-等分散を達成することは未解決のままである。
等価性と表現性の間の調和をナビゲートするために,2段階の回帰フレームワークとして,ニューラルメカニズムの2つの異なるカテゴリを相乗化する深層学習手法,すなわちHarmoSEを提案する。
第1段階は、パラメータ学習プロセスに先立って固有のSO(3)-同変特性を持つ群理論に基づく神経機構に対応し、第2段階は非線形3Dグラフ変換器ネットワークにより特徴付けられる。
新たな組み合わせは、第1段階がSO(3)-等変量の豊富なベースラインハミルトニアンを予測し、第2段階が等価性の経験的学習において補助し、第2段階が第2段階の出力を強力な非線形神経マッピングを用いてハミルトンの微細な予測として洗練し、第1段階のメカニズムの非線形表現能力に固有の弱点を補う点にある。
本手法は, 回転変換下でのSO(3)-等分散性を維持しつつ, 高精度で一般化可能な予測が可能であり, 6つのベンチマークデータベース上でのハミルトン予測における最先端性能を実現する。
Deep learning for predicting the electronic structure Hamiltonian of quantum systems necessitates satisfying the covariance laws, among which achieving SO(3)-equivariance without sacrificing the non-linear expressive capability of networks remains unsolved. To navigate the harmonization between equivariance and expressiveness, we propose a deep learning method, namely HarmoSE, synergizing two distinct categories of neural mechanisms as a two-stage cascaded regression framework. The first stage corresponds to group theory-based neural mechanisms with inherent SO(3)-equivariant properties prior to the parameter learning process, while the second stage is characterized by a non-linear 3D graph Transformer network we propose featuring high capability on non-linear expressiveness. The novel combination lies in the point that, the first stage predicts baseline Hamiltonians with abundant SO(3)-equivariant features extracted, assisting the second stage in empirical learning of equivariance; and in turn, the second stage refines the first stage's output as a fine-grained prediction of Hamiltonians using powerful non-linear neural mappings, compensating for the intrinsic weakness on non-linear expressiveness capability of mechanisms in the first stage. Our method enables precise, generalizable predictions while maintaining robust SO(3)-equivariance under rotational transformations, and achieves state-of-the-art performance in Hamiltonian prediction on six benchmark databases. | 翻訳日:2024-05-08 00:05:27 公開日:2024-05-05 |
# 量子LDPC符号の合同符号と伝播デコーダの設計
A Joint Code and Belief Propagation Decoder Design for Quantum LDPC Codes ( http://arxiv.org/abs/2401.06874v3 ) ライセンス: Link先を確認 | Sisi Miao, Jonathan Mandelbaum, Holger Jäkel, Laurent Schmalen, | (参考訳) 量子低密度パリティチェック(QLDPC)符号は、将来の量子誤り訂正スキームの最も有望な候補の一つである。
しかし、短長から中長のQLDPC符号は限定的に設計されており、その復号性能はタナーグラフの避けられない短周期のため、第4の信念伝搬(BP)デコーダと準最適である。
本稿では,QLDPC符号のための新しいジョイントコードとデコーダ設計を提案する。
構築された符号はブロック長の平方根あたりの最小距離を有する。
さらに、私たちの知る限りでは、BPデコーディングが長さ4の短いサイクルで障害を受けない最初のQLDPCコードファミリーである。
これは、組み立てた短周期の影響を緩和するアンサンブルBPデコーダを用いて達成される。
古典的準巡回符号と有限幾何符号に基づく2つの符号構成法について概説する。
数値計算により, 脱分極チャネル上でのデコード性能が顕著であった。
Quantum low-density parity-check (QLDPC) codes are among the most promising candidates for future quantum error correction schemes. However, a limited number of short to moderate-length QLDPC codes have been designed and their decoding performance is sub-optimal with a quaternary belief propagation (BP) decoder due to unavoidable short cycles in their Tanner graphs. In this paper, we propose a novel joint code and decoder design for QLDPC codes. The constructed codes have a minimum distance of about the square root of the block length. In addition, it is, to the best of our knowledge, the first QLDPC code family where BP decoding is not impaired by short cycles of length 4. This is achieved by using an ensemble BP decoder mitigating the influence of assembled short cycles. We outline two code construction methods based on classical quasi-cyclic codes and finite geometry codes. Numerical results demonstrate outstanding decoding performance over depolarizing channels. | 翻訳日:2024-05-07 23:55:35 公開日:2024-05-05 |
# IBM量子コンピュータを用いた重力光学のディジタル量子シミュレーション
Digital quantum simulation of gravitational optomechanics with IBM quantum computers ( http://arxiv.org/abs/2401.08370v3 ) ライセンス: Link先を確認 | Pablo Guillermo Carmona Rufo, Anupam Mazumdar, Sougato Bose, Carlos Sabín, | (参考訳) 本稿では、量子力学的振動子と光場との相互作用を制御し、重力効果によって量子的絡み合いを発生させるハミルトニアンの作用のディジタル量子シミュレーションを紹介する。
これは、ボソン量子ビットマッピングプロトコルとデジタルゲート分解を利用して、IBM Quantumプラットフォームで利用可能な量子コンピュータでシミュレーションを実行することで実現される。
本稿では,2つの異なる量子コンピュータにおいて,誤差軽減とポストセレクション手法を適用した実験結果について述べる。
得られた結果は90%以上の忠実度に対応しており、これは相互作用の忠実なデジタル量子シミュレーションが可能であり、そのため、光学系における重力による量子絡み合いの発生が可能であることを示している。
We showcase the digital quantum simulation of the action of a Hamiltonian that governs the interaction between a quantum mechanical oscillator and an optical field, generating quantum entanglement between them via gravitational effects. This is achieved by making use of a boson-qubit mapping protocol and a digital gate decomposition that allow us to run the simulations in the quantum computers available in the IBM Quantum platform. We present the obtained results for the fidelity of the experiment in two different quantum computers, after applying error mitigation and post-selection techniques. The achieved results correspond to fidelities over 90%, which indicates that we were able to perform a faithful digital quantum simulation of the interaction and therefore of the generation of quantum entanglement by gravitational means in optomechanical systems. | 翻訳日:2024-05-07 23:55:35 公開日:2024-05-05 |
# ドラモンGPT:大規模言語モデルによる動的シーン理解に向けて(ビデオエージェントとして例示)
DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) ( http://arxiv.org/abs/2401.08392v3 ) ライセンス: Link先を確認 | Zongxin Yang, Guikun Chen, Xiaodi Li, Wenguan Wang, Yi Yang, | (参考訳) 近年のLCM駆動型視覚エージェントは、動的シーンを理解する能力を制限するイメージベースタスクの解決に重点を置いている。
そこで本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
映像のモダリティが現実のシナリオの変化する性質を反映していることを考えると,ドラモンGPTをビデオエージェントとして例示する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
この構造化された表現は、よく設計されたサブタスクツールによる時空間クエリと推論を可能にし、簡潔な中間結果をもたらす。
特殊なドメイン(実験の基礎となる科学原理の分析など)に関しては,LLMには内部知識が限られていることを認識し,外部知識を評価し,異なるドメインにわたるタスクに対処するためのプラグイン・アンド・プレイツールを組み込んでいる。
さらに,モンテカルロ木探索に基づく新しいLCM型プランナを導入し,様々なツールをスケジューリングするための大規模計画空間を探索する。
プランナーは、結果の報酬をバックプロパゲートすることで実現可能なソリューションを反復的に見つけ、複数のソリューションを改善された最終回答にまとめることができる。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
コードはhttps://github.com/z-x-yang/DoraemonGPTで公開される。
Recent LLM-driven visual agents mainly focus on solving image-based tasks, which limits their ability to understand dynamic scenes, making it far from real-life applications like guiding students in laboratory experiments and identifying their mistakes. Hence, this paper explores DoraemonGPT, a comprehensive and conceptually elegant system driven by LLMs to understand dynamic scenes. Considering the video modality better reflects the ever-changing nature of real-world scenarios, we exemplify DoraemonGPT as a video agent. Given a video with a question/task, DoraemonGPT begins by converting the input video into a symbolic memory that stores task-related attributes. This structured representation allows for spatial-temporal querying and reasoning by well-designed sub-task tools, resulting in concise intermediate results. Recognizing that LLMs have limited internal knowledge when it comes to specialized domains (e.g., analyzing the scientific principles underlying experiments), we incorporate plug-and-play tools to assess external knowledge and address tasks across different domains. Moreover, a novel LLM-driven planner based on Monte Carlo Tree Search is introduced to explore the large planning space for scheduling various tools. The planner iteratively finds feasible solutions by backpropagating the result's reward, and multiple solutions can be summarized into an improved final answer. We extensively evaluate DoraemonGPT's effectiveness on three benchmarks and several in-the-wild scenarios. The code will be released at https://github.com/z-x-yang/DoraemonGPT. | 翻訳日:2024-05-07 23:55:35 公開日:2024-05-05 |
# 除去・選択:粗視融合によるRGB赤外線物体検出の改善
Removal and Selection: Improving RGB-Infrared Object Detection via Coarse-to-Fine Fusion ( http://arxiv.org/abs/2401.10731v4 ) ライセンス: Link先を確認 | Tianyi Zhao, Maoxun Yuan, Feng Jiang, Nan Wang, Xingxing Wei, | (参考訳) 近年,可視光(RGB)と赤外線(IR)画像の物体検出が広く行われている。
オブジェクト検出器は、RGBとIR画像の補完特性を活用して、昼夜の信頼性と堅牢な物体位置決めを提供する。
既存の融合戦略のほとんどは、RGBとIR画像をディープニューラルネットワークに直接入力し、検出性能が劣る。
しかし、RGBとIRの特徴はモーダリティ特有のノイズを持ち、これらの戦略は伝播とともに融合した特徴を悪化させる。
本稿では,人間の脳のマルチモーダル情報処理機構に触発されて,2つのモーダル特徴を浄化・融合する,より粗い視点を導入する。
具体的には、各モード内の干渉情報を粗く除去する冗長スペクトル除去モジュールと、特徴融合のために所望の機能を微調整する動的特徴選択モジュールを設計する。
粗大な核融合戦略の有効性を検証するため, 除去・選択検出器 (RSDet) と呼ばれる新しい物体検出器を構築した。
3つのRGB-IRオブジェクト検出データセットの大規模な実験により,本手法の優れた性能が検証された。
Object detection in visible (RGB) and infrared (IR) images has been widely applied in recent years. Leveraging the complementary characteristics of RGB and IR images, the object detector provides reliable and robust object localization from day to night. Most existing fusion strategies directly input RGB and IR images into deep neural networks, leading to inferior detection performance. However, the RGB and IR features have modality-specific noise, these strategies will exacerbate the fused features along with the propagation. Inspired by the mechanism of the human brain processing multimodal information, in this paper, we introduce a new coarse-to-fine perspective to purify and fuse two modality features. Specifically, following this perspective, we design a Redundant Spectrum Removal module to coarsely remove interfering information within each modality and a Dynamic Feature Selection module to finely select the desired features for feature fusion. To verify the effectiveness of the coarse-to-fine fusion strategy, we construct a new object detector called the Removal and Selection Detector (RSDet). Extensive experiments on three RGB-IR object detection datasets verify the superior performance of our method. | 翻訳日:2024-05-07 23:55:35 公開日:2024-05-05 |
# テキストと画像の拡散をマスターする:マルチモーダルLLMによる再カプセル化, 計画, 生成
Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs ( http://arxiv.org/abs/2401.11708v3 ) ライセンス: Link先を確認 | Ling Yang, Zhaochen Yu, Chenlin Meng, Minkai Xu, Stefano Ermon, Bin Cui, | (参考訳) 拡散モデルはテキスト・画像の生成・編集において例外的な性能を示した。
しかし、既存のメソッドは、複数の属性と関係を持つ複数のオブジェクトを含む複雑なテキストプロンプトを扱う場合、しばしば課題に直面します。
本稿では,マルチモーダルLLMの強力なチェーン・オブ・シント推論能力を活用し,テキスト・ツー・イメージ拡散モデルの構成性を向上する,新たなトレーニングフリーなテキスト・ツー・イメージ生成/編集フレームワークを提案する。
本手法では,MLLMをグローバルプランナとして使用し,複雑な画像をサブリージョン内の複数の単純な生成タスクに分解する。
本稿では,地域的構成生成を可能にするために,補完的な地域拡散を提案する。
さらに,提案したRPGのテキスト誘導画像生成と編集をクローズドループ方式で統合し,一般化能力を向上する。
DALL-E 3 や SDXL といった最先端のテキスト・画像拡散モデル、特に多カテゴリオブジェクト合成やテキスト・画像セマンティックアライメントにおいて、RPG はより優れています。
特に,当社のRPGフレームワークは,MLLMアーキテクチャ(例: MiniGPT-4)や拡散バックボーン(例: ControlNet)との広範な互換性を示す。
私たちのコードは、https://github.com/YangLing0818/RPG-DiffusionMasterで利用可能です。
Diffusion models have exhibit exceptional performance in text-to-image generation and editing. However, existing methods often face challenges when handling complex text prompts that involve multiple objects with multiple attributes and relationships. In this paper, we propose a brand new training-free text-to-image generation/editing framework, namely Recaption, Plan and Generate (RPG), harnessing the powerful chain-of-thought reasoning ability of multimodal LLMs to enhance the compositionality of text-to-image diffusion models. Our approach employs the MLLM as a global planner to decompose the process of generating complex images into multiple simpler generation tasks within subregions. We propose complementary regional diffusion to enable region-wise compositional generation. Furthermore, we integrate text-guided image generation and editing within the proposed RPG in a closed-loop fashion, thereby enhancing generalization ability. Extensive experiments demonstrate our RPG outperforms state-of-the-art text-to-image diffusion models, including DALL-E 3 and SDXL, particularly in multi-category object composition and text-image semantic alignment. Notably, our RPG framework exhibits wide compatibility with various MLLM architectures (e.g., MiniGPT-4) and diffusion backbones (e.g., ControlNet). Our code is available at: https://github.com/YangLing0818/RPG-DiffusionMaster | 翻訳日:2024-05-07 23:55:35 公開日:2024-05-05 |
# Delocate: ランダムに位置決めされたトレーパー付きディープフェイクビデオの検出と位置決め
Delocate: Detection and Localization for Deepfake Videos with Randomly-Located Tampered Traces ( http://arxiv.org/abs/2401.13516v4 ) ライセンス: Link先を確認 | Juan Hu, Xin Liao, Difei Gao, Satoshi Tsutsui, Qian Wang, Zheng Qin, Mike Zheng Shou, | (参考訳) ディープフェイクビデオはますます現実的になりつつあり、フレームごとに異なる顔領域の痕跡がほとんど見当たらない。
その結果、既存のDeepfake検出手法では、未知のドメインのDeepfakeビデオを検出するのに苦労し、改ざんされた領域を正確に特定する。
そこで本研究では,未知のドメインのDeepfakeビデオの認識とローカライズが可能なDelocateという,新しいDeepfake検出モデルを提案する。
OurmethodはRecovering and Localizationという2つのステージから構成される。
回復段階において、モデルランダムは興味のある領域(ROI)を隠蔽し、痕跡を改ざんすることなく実際の顔を再構築する。
ローカライゼーション段階において、リカバリフェーズの出力とフォージェリーグラウンドの真理マスクは、フォージェリーローカライゼーションプロセスの導出を補助する。
このプロセスは、偽の顔の回復段階と回復不良を戦略的に強調し、改ざんされた領域の局所化を容易にする。
広範に使用されている4つのベンチマークデータセットの大規模な実験により、乱れ領域のローカライズに限らず、クロスドメイン検出性能も向上することが示された。
Deepfake videos are becoming increasingly realistic, showing few tampering traces on facial areasthat vary between frames. Consequently, existing Deepfake detection methods struggle to detect unknown domain Deepfake videos while accurately locating the tampered region. To address thislimitation, we propose Delocate, a novel Deepfake detection model that can both recognize andlocalize unknown domain Deepfake videos. Ourmethod consists of two stages named recoveringand localization. In the recovering stage, the modelrandomly masks regions of interest (ROIs) and reconstructs real faces without tampering traces, leading to a relatively good recovery effect for realfaces and a poor recovery effect for fake faces. Inthe localization stage, the output of the recoveryphase and the forgery ground truth mask serve assupervision to guide the forgery localization process. This process strategically emphasizes the recovery phase of fake faces with poor recovery, facilitating the localization of tampered regions. Ourextensive experiments on four widely used benchmark datasets demonstrate that Delocate not onlyexcels in localizing tampered areas but also enhances cross-domain detection performance. | 翻訳日:2024-05-07 23:55:35 公開日:2024-05-05 |
# プロンプト設計と工学 : 導入と高度化
Prompt Design and Engineering: Introduction and Advanced Methods ( http://arxiv.org/abs/2401.14423v4 ) ライセンス: Link先を確認 | Xavier Amatriain, | (参考訳) プロンプト設計と工学は、大規模言語モデルの可能性の最大化に急速に欠かせないものとなっている。
本稿では、中核的な概念、Chain-of-ThoughtやReflectionのような高度な技術、およびLCMベースのエージェント構築の背景にある原則を紹介する。
最後に、エンジニアにプロンプトするためのツールを調査します。
Prompt design and engineering has rapidly become essential for maximizing the potential of large language models. In this paper, we introduce core concepts, advanced techniques like Chain-of-Thought and Reflection, and the principles behind building LLM-based agents. Finally, we provide a survey of tools for prompt engineers. | 翻訳日:2024-05-07 23:45:49 公開日:2024-05-05 |
# 配電シフトのアルゴリズムフェアネスに関する調査
Supervised Algorithmic Fairness in Distribution Shifts: A Survey ( http://arxiv.org/abs/2402.01327v3 ) ライセンス: Link先を確認 | Minglai Shao, Dong Li, Chen Zhao, Xintao Wu, Yujie Lin, Qin Tian, | (参考訳) 分散シフト下での監視された公正な機械学習は、ソースからターゲットドメインへのデータの分散の変化に直面した場合、公平で偏見のない予測を維持するという課題に対処する新興分野である。
現実世界のアプリケーションでは、機械学習モデルは特定のデータセットでトレーニングされることが多いが、さまざまな要因によってデータの分散が時間とともに変化する環境にデプロイされる。
この変化は、人種や性別などのセンシティブな属性によって特徴づけられる特定のグループに不公平な予測をもたらす可能性がある。
本調査では, 各種分布シフトの概説を行い, これらのシフトに基づく既存手法を包括的に検討し, 文献で広く用いられている6つのアプローチを概説する。
さらに、この調査では、実証研究のための公開データセットと評価指標をリストアップしている。
さらに、関連する研究分野との相互関係を探求し、重要な課題について議論し、今後の研究の方向性を明らかにする。
Supervised fairness-aware machine learning under distribution shifts is an emerging field that addresses the challenge of maintaining equitable and unbiased predictions when faced with changes in data distributions from source to target domains. In real-world applications, machine learning models are often trained on a specific dataset but deployed in environments where the data distribution may shift over time due to various factors. This shift can lead to unfair predictions, disproportionately affecting certain groups characterized by sensitive attributes, such as race and gender. In this survey, we provide a summary of various types of distribution shifts and comprehensively investigate existing methods based on these shifts, highlighting six commonly used approaches in the literature. Additionally, this survey lists publicly available datasets and evaluation metrics for empirical studies. We further explore the interconnection with related research fields, discuss the significant challenges, and identify potential directions for future studies. | 翻訳日:2024-05-07 23:45:49 公開日:2024-05-05 |
# NetLLM: 大規模言語モデルによるネットワーク化
NetLLM: Adapting Large Language Models for Networking ( http://arxiv.org/abs/2402.02338v2 ) ライセンス: Link先を確認 | Duo Wu, Xianda Wang, Yaqi Qiao, Zhi Wang, Junchen Jiang, Shuguang Cui, Fangxin Wang, | (参考訳) 多くのネットワークタスクでは、複雑な予測とシステムの最適化問題を解決するためにディープラーニング(DL)を採用している。
しかし、DLベースのアルゴリズムの現在の設計哲学は、異なるネットワークタスクのためのディープニューラルネットワーク(DNN)の手動設計のために、エンジニアリングのオーバーヘッドが集中的に伴う。
さらに、DNNは目に見えないデータ分散/環境上での一般化性能が劣る傾向にある。
近年の大規模言語モデル(LLM)の成功に触発されたこの研究は、より持続可能な設計哲学を探求するために、ネットワークへのLLM適応を初めて研究した。
膨大な事前学習された知識と強力な推論能力により、LLMは基礎モデルとして機能し、より優れたパフォーマンスと様々なタスクのより強力な一般化によって「すべてのための1つのモデル」を達成することが期待されている。
本稿では,ネットワーク問題を解決するためにLLMを効率的に適用する最初のLLM適応フレームワークであるNetLLMを提案する。
NetLLMは、LLMでタスク固有の情報を処理する方法、回答生成の効率を改善する方法、ネットワークのためのドメイン知識を取得する方法など、LLM適応における多くの実践的な課題に対処する。
3つのネットワーク関連ユースケースであるビューポート予測(VP)、適応ビットレートストリーミング(ABR)、クラスタジョブスケジューリング(CJS)において、ネットワークへのLLM適応におけるNetLLMの有効性を実証し、適応LLMが最先端のアルゴリズムを大幅に上回ることを示す。
Many networking tasks now employ deep learning (DL) to solve complex prediction and system optimization problems. However, current design philosophy of DL-based algorithms entails intensive engineering overhead due to the manual design of deep neural networks (DNNs) for different networking tasks. Besides, DNNs tend to achieve poor generalization performance on unseen data distributions/environments. Motivated by the recent success of large language models (LLMs), for the first time, this work studies the LLM adaptation for networking to explore a more sustainable design philosophy. With the massive pre-trained knowledge and powerful inference ability, LLM can serve as the foundation model, and is expected to achieve "one model for all" with even better performance and stronger generalization for various tasks. In this paper, we present NetLLM, the first LLM adaptation framework that efficiently adapts LLMs to solve networking problems. NetLLM addresses many practical challenges in LLM adaptation, from how to process task-specific information with LLMs, to how to improve the efficiency of answer generation and acquiring domain knowledge for networking. Across three networking-related use cases - viewport prediction (VP), adaptive bitrate streaming (ABR) and cluster job scheduling (CJS), we demonstrate the effectiveness of NetLLM in LLM adaptation for networking, and showcase that the adapted LLM significantly outperforms state-of-the-art algorithms. | 翻訳日:2024-05-07 23:45:49 公開日:2024-05-05 |
# MRI再構成のための協調型モデル駆動ネットワーク
A Collaborative Model-driven Network for MRI Reconstruction ( http://arxiv.org/abs/2402.03383v2 ) ライセンス: Link先を確認 | Xiaoyu Qiao, Weisheng Li, Guofen Wang, Yuping Huang, | (参考訳) ディープラーニング(DL)ベースの手法は、MRI(MRI)における長期走査時間を短縮する有望なソリューションを提供する。
モデル駆動型DL手法は、事前知識を深層ネットワークに組み込むことによって、説得力のある結果を実証する一方で、様々な事前知識の統合を最適化するためには、さらなる探索が必要である。
と。
既存のモデル駆動ネットワークは、最適化アルゴリズムにおいて反復的な解ステップを模倣するために、線形に積み上げられたアンロールカスケードを使用するのが一般的である。
しかし、このアプローチでは、トレーニング中に異なる事前ベース正規化器間のバランスを見つける必要があり、結果として収束が遅くなり、準最適再構成が行われる。
この制限を克服するために、異なる正規化器の相補性を最大限に活用するための協調モデル駆動ネットワークを提案する。
我々は、異なる先行サブネットワークによって生成された中間再構成(IR)に対する相対信頼度(RC)と全体信頼度(OC)の両方を学ぶために、注意モジュールを設計する。
RCはサブネットワークの専門分野により多くの重みを割り当て、正確な要素的協調を可能にする。
我々は、両方のサブネットが低い精度を示すボトルネックシナリオに対処する修正モジュールを設計し、OCマップに基づいてさらにIRを最適化する。
様々なステージにわたるIRは連結され、アテンションモジュールに供給され、堅牢で正確な信頼マップを構築する。
複数のデータセットに対する実験結果から,計算コストを伴わずに最終結果に大きな改善が得られた。
さらに、モデル駆動型ネットワーク設計戦略は、様々なモデル駆動方式に便利に適用でき、性能を向上させることができる。
Deep learning (DL)-based methods offer a promising solution to reduce the prolonged scanning time in magnetic resonance imaging (MRI). While model-driven DL methods have demonstrated convincing results by incorporating prior knowledge into deep networks, further exploration is needed to optimize the integration of diverse priors.. Existing model-driven networks typically utilize linearly stacked unrolled cascades to mimic iterative solution steps in optimization algorithms. However, this approach needs to find a balance between different prior-based regularizers during training, resulting in slower convergence and suboptimal reconstructions. To overcome the limitations, we propose a collaborative model-driven network to maximally exploit the complementarity of different regularizers. We design attention modules to learn both the relative confidence (RC) and overall confidence (OC) for the intermediate reconstructions (IRs) generated by different prior-based subnetworks. RC assigns more weight to the areas of expertise of the subnetworks, enabling precise element-wise collaboration. We design correction modules to tackle bottleneck scenarios where both subnetworks exhibit low accuracy, and they further optimize the IRs based on OC maps. IRs across various stages are concatenated and fed to the attention modules to build robust and accurate confidence maps. Experimental results on multiple datasets showed significant improvements in the final results without additional computational costs. Moreover, the proposed model-driven network design strategy can be conveniently applied to various model-driven methods to improve their performance. | 翻訳日:2024-05-07 23:45:49 公開日:2024-05-05 |
# ランダム量子回路における量子多体傷の観測
Observing quantum many-body scars in random quantum circuits ( http://arxiv.org/abs/2402.06489v2 ) ライセンス: Link先を確認 | Bárbara Andrade, Utso Bhattacharya, Ravindra W. Chhajlany, Tobias Graß, Maciej Lewenstein, | (参考訳) シュウィンガーモデルは1+1次元の量子電磁力学を記述し、量子色力学のプロトタイプであり、その格子バージョンは現代の量子デバイスでシミュレートできる量子リンクモデルの記述を可能にする。
本研究では,スピン1/2演算子によってゲージ場自由度が記述される低次元形状の量子シミュレーションを考案した。
我々は、シュウィンガーモデルハミルトニアンの下で進化を効果的に生成する量子回路を記述するためにトロッタライズを適用する。
固定ゲート列を持つ逐次回路とランダム化回路の両方を考慮する。
シュウィンガーモデルとPXPモデルとの対応を利用して、回路の進化に長大な熱化時間を示す状態を特定することにより、シュウィンガーモデルにおける量子スカー状態の存在を調査する。
逐次およびランダム化回路力学の比較により、ヒルベルト空間の非熱セクターは、傷跡を含むよりランダム化に敏感であることが示されている。
The Schwinger model describes quantum electrodynamics in 1+1-dimensions, it is a prototype for quantum chromodynamics, and its lattice version allows for a quantum link model description that can be simulated using modern quantum devices. In this work, we devise quantum simulations to investigate the dynamics of this model in its low dimensional form, where the gauge field degrees of freedom are described by spin 1/2 operators. We apply trotterization to write quantum circuits that effectively generate the evolution under the Schwinger model Hamiltonian. We consider both sequential circuits, with a fixed gate sequence, and randomized ones. Utilizing the correspondence between the Schwinger model and the PXP model, known for its quantum scars, we investigate the presence of quantum scar states in the Schwinger model by identifying states exhibiting extended thermalization times in our circuit evolutions. Our comparison of sequential and randomized circuit dynamics shows that the non-thermal sector of the Hilbert space, including the scars, are more sensitive to randomization. | 翻訳日:2024-05-07 23:35:59 公開日:2024-05-05 |
# 分類データセットとその意味階層を利用した視覚言語モデルのオープンエンドVQAベンチマーク
Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy ( http://arxiv.org/abs/2402.07270v2 ) ライセンス: Link先を確認 | Simon Ging, María A. Bravo, Thomas Brox, | (参考訳) テキスト生成視覚言語モデルの評価は、難しいが重要な試みである。
既存のVisual Question Answering(VQA)ベンチマークの限界に対処し、革新的な評価手法を提案することにより、これらのモデルの能力の理解を深めることを目指している。
本稿では,テキスト生成型視覚言語モデルの詳細な評価と識別型視覚言語モデルとの比較が可能な,よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。
きめ細かな分類課題に対する粗い回答の評価を改善するために,ラベル空間のセマンティックな階層を用いて,土木カテゴリーに関するフォローアップ質問を自動的に生成することを提案する。
最後に,従来のNLPとLLMに基づくメトリクスを比較し,実測値からモデル予測を評価する。
最終基準に基づく人的評価研究を行う。
このベンチマークを視覚言語モデルに適用し,対象,行動,属性の分類におけるそれらの能力の詳細な比較を示す。
我々のコントリビューションは、視覚言語モデリングのエキサイティングな分野において、より正確で有意義な評価の基礎を築くことを目的としています。
The evaluation of text-generative vision-language models is a challenging yet crucial endeavor. By addressing the limitations of existing Visual Question Answering (VQA) benchmarks and proposing innovative evaluation methodologies, our research seeks to advance our understanding of these models' capabilities. We propose a novel VQA benchmark based on well-known visual classification datasets which allows a granular evaluation of text-generative vision-language models and their comparison with discriminative vision-language models. To improve the assessment of coarse answers on fine-grained classification tasks, we suggest using the semantic hierarchy of the label space to ask automatically generated follow-up questions about the ground-truth category. Finally, we compare traditional NLP and LLM-based metrics for the problem of evaluating model predictions given ground-truth answers. We perform a human evaluation study upon which we base our decision on the final metric. We apply our benchmark to a suite of vision-language models and show a detailed comparison of their abilities on object, action, and attribute classification. Our contributions aim to lay the foundation for more precise and meaningful assessments, facilitating targeted progress in the exciting field of vision-language modeling. | 翻訳日:2024-05-07 23:35:59 公開日:2024-05-05 |
# Any-Precision LLM:複数サイズ異なるLLMの低コスト展開
Any-Precision LLM: Low-Cost Deployment of Multiple, Different-Sized LLMs ( http://arxiv.org/abs/2402.10517v2 ) ライセンス: Link先を確認 | Yeonhong Park, Jake Hyun, SangLyul Cho, Bonggeun Sim, Jae W. Lee, | (参考訳) 近年,大規模言語モデル (LLM) の圧縮に多大な努力が注がれている。
一方、実用的重要性にもかかわらず、異なるサイズの複数のLSMをデプロイする際のコストを軽減することには、はるかに注意が払われていない。
そこで本稿では,任意の精度 DNN の概念を LLM に拡張した 'emph{any-precision LLM} を提案する。
そこで我々は,LLMの任意の精度量子化のための軽量な手法を提案し,学習後の量子化フレームワークを活用し,効率的な処理を行うための専用ソフトウェアエンジンを開発した。
その結果,3, 4, ..., $n$bits などの様々なビット幅に量子化された LLM を 1 つの$n$bit LLM に相当するメモリフットプリントにオーバーレイすることで,複数の異なる LLM をデプロイするコストを大幅に削減できることがわかった。
サポートするLLMのビット幅は様々であり、最先端のモデル品質と推論のスループットを示しており、異なるサイズのLLMを複数配置する上で魅力的な選択肢であることが証明されている。
ソースコードはまもなく公開される予定だ。
Recently, considerable efforts have been directed towards compressing Large Language Models (LLMs), which showcase groundbreaking capabilities across diverse applications but entail significant deployment costs due to their large sizes. Meanwhile, much less attention has been given to mitigating the costs associated with deploying multiple LLMs of varying sizes despite its practical significance. Thus, this paper introduces \emph{any-precision LLM}, extending the concept of any-precision DNN to LLMs. Addressing challenges in any-precision LLM, we propose a lightweight method for any-precision quantization of LLMs, leveraging a post-training quantization framework, and develop a specialized software engine for its efficient serving. As a result, our solution significantly reduces the high costs of deploying multiple, different-sized LLMs by overlaying LLMs quantized to varying bit-widths, such as 3, 4, ..., $n$ bits, into a memory footprint comparable to a single $n$-bit LLM. All the supported LLMs with varying bit-widths demonstrate state-of-the-art model quality and inference throughput, proving itself to be a compelling option for deployment of multiple, different-sized LLMs. The source code will be publicly available soon. | 翻訳日:2024-05-07 23:35:58 公開日:2024-05-05 |
# 大規模言語モデルを用いた術後リスク予測
Predicting postoperative risks using large language models ( http://arxiv.org/abs/2402.17493v4 ) ライセンス: Link先を確認 | Bing Xue, Charles Alba, Joanna Abraham, Thomas Kannampallil, Chenyang Lu, | (参考訳) 術後のリスクを予測することは、効果的なケア管理と計画に影響を及ぼす可能性がある。
各種チューニング手法を用いて, 臨床テキストによる術後リスク予測のための大規模言語モデル (LLM) について検討した。
2018年から2021年の間,バーンズ・ユダヤ人病院(BJH)の84,875人の患者を対象とし,術後7日間のICU持続時間に基づく追跡調査を行った。
MIMIC-IIIデータセットにメソッドが複製された。
その結果,30日間の死亡,肺塞栓症,肺炎が認められた。
3つのLLM (BioGPT, ClinicalBERT, BioClinicalBERT) に対して, 自己指導的目的, ラベルを半監督的微調整に組み込むこと, マルチタスク学習による基礎的モデリングを行った。
モデル性能をAUROC & AUPRC を用いて分類タスクと回帰タスクの MSE & R2 と比較した。
コホートの平均年齢は56.9歳(16.8歳)、男性50.3%、白人74%だった。
事前訓練されたLLMは従来の単語の埋め込みよりも優れており、AUROCは38.3%、AUPRCは14%だった。
自己監督微調整によるモデルの適用により、AUROCは3.2%、AUPRCは1.5%の性能向上、半監督微調整は1.8%、AUPRCは2%、基礎モデリングは3.6%、AUROCは2.6%向上した。
事前訓練された臨床LSMは、未確認データによる術後リスク予測の機会を提供し、微調整によるさらなる改善は、ノート固有の周術期のユースケースに事前訓練されたモデルを適用することの利点を示唆している。
ラベルを組み込むことでパフォーマンスをさらに向上させることができる。
基本モデルの優れた性能は、周術期医療における汎用LSMに向けたタスク非依存学習の可能性を示している。
Predicting postoperative risk can inform effective care management & planning. We explored large language models (LLMs) in predicting postoperative risk through clinical texts using various tuning strategies. Records spanning 84,875 patients from Barnes Jewish Hospital (BJH) between 2018 & 2021, with a mean duration of follow-up based on the length of postoperative ICU stay less than 7 days, were utilized. Methods were replicated on the MIMIC-III dataset. Outcomes included 30-day mortality, pulmonary embolism (PE) & pneumonia. Three domain adaptation & finetuning strategies were implemented for three LLMs (BioGPT, ClinicalBERT & BioClinicalBERT): self-supervised objectives; incorporating labels with semi-supervised fine-tuning; & foundational modelling through multi-task learning. Model performance was compared using the AUROC & AUPRC for classification tasks & MSE & R2 for regression tasks. Cohort had a mean age of 56.9 (sd: 16.8) years; 50.3% male; 74% White. Pre-trained LLMs outperformed traditional word embeddings, with absolute maximal gains of 38.3% for AUROC & 14% for AUPRC. Adapting models through self-supervised finetuning further improved performance by 3.2% for AUROC & 1.5% for AUPRC Incorporating labels into the finetuning procedure further boosted performances, with semi-supervised finetuning improving by 1.8% for AUROC & 2% for AUPRC & foundational modelling improving by 3.6% for AUROC & 2.6% for AUPRC compared to self-supervised finetuning. Pre-trained clinical LLMs offer opportunities for postoperative risk predictions with unseen data, & further improvements from finetuning suggests benefits in adapting pre-trained models to note-specific perioperative use cases. Incorporating labels can further boost performance. The superior performance of foundational models suggests the potential of task-agnostic learning towards the generalizable LLMs in perioperative care. | 翻訳日:2024-05-07 23:26:12 公開日:2024-05-05 |
# 雑音ランダム回路における条件付き相互情報の普遍的拡散
Universal Spreading of Conditional Mutual Information in Noisy Random Circuits ( http://arxiv.org/abs/2402.18548v2 ) ライセンス: Link先を確認 | Su-un Lee, Changhun Oh, Yat Wong, Senrui Chen, Liang Jiang, | (参考訳) 一般開放量子系における条件付き相互情報の進化を考察し,局所雑音を分散した1次元ランダム回路に着目した。
雑音のない回路では、光錐に束縛された状態で条件付き相互情報が直線的に拡散するのとは異なり、誤差率$p$のノイズランダム回路は光錐の超線形伝播を示し、臨界回路深度$t_c \propto p^{-1}$で光錐より遠くに発散する。
このような急激な拡散のメカニズムは局所雑音とスクランブル・ユニタリの複合効果であり、長距離相関を保ちながら短距離相関を選択的に除去することを示した。
雑音の多いランダム回路における条件付き相互情報のダイナミクスを解析的に捉えるため,粗粒化法を導入し,数値シミュレーションにより理論的結果を検証した。
さらに,条件付き相互情報の拡散を規定する普遍的スケーリング法を規定する。
We study the evolution of conditional mutual information in generic open quantum systems, focusing on one-dimensional random circuits with interspersed local noise. Unlike in noiseless circuits, where conditional mutual information spreads linearly while being bounded by the lightcone, we find that noisy random circuits with an error rate $p$ exhibit superlinear propagation of conditional mutual information, which diverges far beyond the lightcone at a critical circuit depth $t_c \propto p^{-1}$. We demonstrate that the underlying mechanism for such rapid spreading is the combined effect of local noise and a scrambling unitary, which selectively removes short-range correlations while preserving long-range correlations. To analytically capture the dynamics of conditional mutual information in noisy random circuits, we introduce a coarse-graining method, and we validate our theoretical results through numerical simulations. Furthermore, we identify a universal scaling law governing the spreading of conditional mutual information. | 翻訳日:2024-05-07 23:26:12 公開日:2024-05-05 |
# AC4:ZKPの回路制約に対する代数計算チェッカ
AC4: Algebraic Computation Checker for Circuit Constraints in ZKPs ( http://arxiv.org/abs/2403.15676v2 ) ライセンス: Link先を確認 | Hao Chen, Minyu Chen, Ruibang Liu, Guoqiang Li, Sinka Gao, | (参考訳) ZKPシステムは注目され、現代の暗号において基本的な役割を担っている。
Zk-SNARKプロトコルはZKPの利用を支配し、しばしば演算回路プログラミングのパラダイムによって実装される。
しかし、過度に制約された回路や過度に制約された回路はバグを引き起こす可能性がある。
制約の少ない回路は、必要な制約を欠いた回路を指し、結果として回路の予期せぬ解が生まれ、検証者が悪質な証人を受け入れる。
過制約回路は過度に制約された回路を指し、結果として回路は必要な解決策が欠如し、検証者が証人を受け入れることなく回路を無意味にする。
本稿では,ZKP回路の2種類のバグをピンポイントする手法を提案する。
この方法では、算術回路の制約を多項式方程式系に符号化し、代数計算により有限体上の多項式方程式系を解く。
検証結果の分類が洗練され、システムの表現力が大幅に向上する。
我々は,この手法の実装を表現するためのツールAC4を提案した。
実験の結果、AC4は前回の作業に比べてチェック比が29%大きく向上していることがわかった。
可溶範囲内では、AC4のチェックタイムも顕著に改善され、以前の取り組みに比べて大幅に向上した。
ZKP systems have surged attention and held a fundamental role in contemporary cryptography. Zk-SNARK protocols dominate the ZKP usage, often implemented through arithmetic circuit programming paradigm. However, underconstrained or overconstrained circuits may lead to bugs. Underconstrained circuits refer to circuits that lack the necessary constraints, resulting in unexpected solutions in the circuit and causing the verifier to accept a bogus witness. Overconstrained circuits refer to circuits that are constrained excessively, resulting in the circuit lacking necessary solutions and causing the verifier to accept no witness, rendering the circuit meaningless. This paper introduces a novel approach for pinpointing two distinct types of bugs in ZKP circuits. The method involves encoding the arithmetic circuit constraints to polynomial equation systems and solving polynomial equation systems over a finite field by algebraic computation. The classification of verification results is refined, greatly enhancing the expressive power of the system. We proposed a tool, AC4, to represent the implementation of this method. Experiments demonstrate that AC4 represents a substantial 29% increase in the checked ratio compared to prior work. Within a solvable range, the checking time of AC4 has also exhibited noticeable improvement, demonstrating a magnitude increase compared to previous efforts. | 翻訳日:2024-05-07 23:06:30 公開日:2024-05-05 |
# 視覚・言語モデルにおける幻覚緩和のための意味的再構築
Exploiting Semantic Reconstruction to Mitigate Hallucinations in Vision-Language Models ( http://arxiv.org/abs/2403.16167v3 ) ライセンス: Link先を確認 | Minchan Kim, Minyeong Kim, Junik Bae, Suhwan Choi, Sungkyung Kim, Buru Chang, | (参考訳) 視覚言語モデルにおける幻覚は、特に長いキャプションの生成において、その信頼性に重大な課題をもたらす。
現在の方法では、これらの幻覚を正確に識別し緩和することができない。
この問題に対処するためESREALは,幻覚の発生を抑制するために,幻覚トークンの正確な位置化と罰則化によって設計された,新しい教師なし学習フレームワークである。
当初、ESREALは生成されたキャプションに基づいて再構成画像を作成し、対応する領域を元の画像と整列させる。
この意味再構成は、生成されたキャプション内のトークンレベルの幻覚の存在とタイプの両方を識別するのに役立つ。
その後、ESREALは、幻覚の種類に基づいて整列領域の意味的類似性を評価することにより、トークンレベルの幻覚スコアを算出する。
最後に、ESREALは近似ポリシー最適化アルゴリズムを採用し、トークンレベルの幻覚スコアに応じて幻覚トークンを選択的にペナルティ化する。
LLaVA, InstructBLIP, mPLUG-Owl2の幻覚を32.81%, 27.08%, 7.46%減少させる。
この改善は画像自体から派生した信号によってのみ達成され、画像とテキストのペアは不要である。
Hallucinations in vision-language models pose a significant challenge to their reliability, particularly in the generation of long captions. Current methods fall short of accurately identifying and mitigating these hallucinations. To address this issue, we introduce ESREAL, a novel unsupervised learning framework designed to suppress the generation of hallucinations through accurate localization and penalization of hallucinated tokens. Initially, ESREAL creates a reconstructed image based on the generated caption and aligns its corresponding regions with those of the original image. This semantic reconstruction aids in identifying both the presence and type of token-level hallucinations within the generated caption. Subsequently, ESREAL computes token-level hallucination scores by assessing the semantic similarity of aligned regions based on the type of hallucination. Finally, ESREAL employs a proximal policy optimization algorithm, where it selectively penalizes hallucinated tokens according to their token-level hallucination scores. Our framework notably reduces hallucinations in LLaVA, InstructBLIP, and mPLUG-Owl2 by 32.81%, 27.08%, and 7.46% on the CHAIR metric. This improvement is achieved solely through signals derived from the image itself, without the need for any image-text pairs. | 翻訳日:2024-05-07 23:06:30 公開日:2024-05-05 |
# 変圧器ネットワークの話題
The Topos of Transformer Networks ( http://arxiv.org/abs/2403.18415v3 ) ライセンス: Link先を確認 | Mattia Jacopo Villani, Peter McBurney, | (参考訳) トランスフォーマーニューラルネットワークは、大きな言語モデルの背後にあるエンジンとして、他のすべてのニューラルネットワークアーキテクチャを大きく上回っている。
本稿では, トポス理論のレンズを用いて, トランスフォーマーアーキテクチャの表現性に関する理論的解析を行う。
この観点から、畳み込み、再帰、グラフ畳み込みなどの多くの一般的なニューラルネットワークアーキテクチャが、片方向線形関数のプリトポに組み込むことができるが、トランスフォーマーはそのトポス完了に必然的に存在することを示す。
特に、このことは、2つのネットワークファミリーが異なる論理の断片をインスタンス化することを示唆している。
さらに、アーキテクチャ探索と勾配降下とを並列に描画し、サイバネティックエージェントの枠組みに分析を統合する。
The transformer neural network has significantly out-shined all other neural network architectures as the engine behind large language models. We provide a theoretical analysis of the expressivity of the transformer architecture through the lens of topos theory. From this viewpoint, we show that many common neural network architectures, such as the convolutional, recurrent and graph convolutional networks, can be embedded in a pretopos of piecewise-linear functions, but that the transformer necessarily lives in its topos completion. In particular, this suggests that the two network families instantiate different fragments of logic: the former are first order, whereas transformers are higher-order reasoners. Furthermore, we draw parallels with architecture search and gradient descent, integrating our analysis in the framework of cybernetic agents. | 翻訳日:2024-05-07 23:06:30 公開日:2024-05-05 |
# 測定に基づくフィードバックとしての一般量子古典力学
General quantum-classical dynamics as measurement based feedback ( http://arxiv.org/abs/2403.19748v2 ) ライセンス: Link先を確認 | Antoine Tilloy, | (参考訳) このノートは、連続測定の理論と一般(非マルコフ)フィードバックから、一般ハイブリッド量子古典力学の確率微分方程式と偏微分方程式を導出する。
このアプローチの利点は、追加の肯定的制約を伴わない明示的なパラメータ化である。
この構造はまた、量子が古典にどのように影響するか、そして古典が量子にどのように影響するかという、異なる効果をきちんと分離している。
このモジュラープレゼンテーションは、特に基本的な理論を構築するために使われる場合、ハイブリッド力学に何を期待するかをより直感的に教えてくれる。
This note derives the stochastic differential equations and partial differential equation of general hybrid quantum-classical dynamics from the theory of continuous measurement and general (non-Markovian) feedback. The advantage of this approach is an explicit parameterization, without additional positivity constraints. The construction also neatly separates the different effects: how the quantum influences the classical and how the classical influences the quantum. This modular presentation gives a better intuition of what to expect from hybrid dynamics, especially when used to construct possibly fundamental theories. | 翻訳日:2024-05-07 23:06:30 公開日:2024-05-05 |
# 解釈可能なディープラーニング予測モデルにおけるエネルギーモデルによるShapley値の正確な推定
Energy-based Model for Accurate Shapley Value Estimation in Interpretable Deep Learning Predictive Modeling ( http://arxiv.org/abs/2404.01078v2 ) ライセンス: Link先を確認 | Cheng Lu, Jiusun Zeng, Yu Xia, Jinhui Cai, Shihua Luo, | (参考訳) 説明可能な人工知能(XAI)のツールとして、Shapleyの価値はディープラーニングに基づく予測モデルを解釈するために広く用いられてきた。
しかし,入力特性の増加に伴い計算負荷が指数関数的に増加するため,Shapley値の正確かつ効率的な推定は困難である。
既存の高速化推定手法の多くは、効率よく推定精度を損なう必要がある。
本稿では,Shapley値推定のためのEmSHAP(Energy-based model for Shapley value Estimation)を提案する。
エネルギーベースモデルでは、非正規化条件密度を近似するエネルギーネットワークと分割関数を近似するGRU(Gated Recurrent Unit)ネットワークを含むShapleyコントリビューション関数の条件密度を推定する。
GRUネットワークは入力特徴を隠れた空間にマッピングし、入力順序の影響を排除する。
異なるShapley値推定法の性能を理論的に評価するために,EmSHAPの誤差境界,すなわち KernelSHAP と VAEAC を解析した。
EmSHAP は KernelSHAP や VAEAC よりも誤差が強いことが証明された。
最後に,2つの応用事例のケーススタディにより,EmSHAPの推定精度が向上した。
As a favorable tool for explainable artificial intelligence (XAI), Shapley value has been widely used to interpret deep learning based predictive models. However, accurate and efficient estimation of Shapley value is difficult since the computation load grows exponentially with the increase of input features. Most existing accelerated estimation methods have to compromise on estimation accuracy with efficiency. In this article, we present EmSHAP(Energy-based model for Shapley value estimation) to estimate the expectation of Shapley contribution function under arbitrary subset of features given the rest. The energy-based model estimates the conditional density in the Shapley contribution function, which involves an energy network for approximating the unnormalized conditional density and a GRU (Gated Recurrent Unit) network for approximating the partition function. The GRU network maps the input features onto a hidden space to eliminate the impact of input orderings. In order to theoretically evaluate the performance of different Shapley value estimation methods, Theorems 1, 2 and 3 analyzed the error bounds of EmSHAP as well as two state-of-the-art methods, namely KernelSHAP and VAEAC. It is proved that EmSHAP has tighter error bound than KernelSHAP and VAEAC. Finally, case studies on two application examples show the enhanced estimation accuracy of EmSHAP. | 翻訳日:2024-05-07 23:06:30 公開日:2024-05-05 |
# Rydberg原子量子コンピュータの表面符号の消去耐性スキーム
Erasure-tolerance scheme for the surface codes on Rydberg atomic quantum computers ( http://arxiv.org/abs/2404.12656v2 ) ライセンス: Link先を確認 | Fumiyoshi Kobayashi, Shota Nagayama, | (参考訳) 光ツイーザを備えたライドバーグ原子配列は、スケーラビリティ、長いコヒーレンス時間、通信のための光アクセシビリティといった優れた性質のおかげで、フォールトトレラント量子コンピュータの候補として期待できる。
克服すべき大きな障壁は、非Pauliエラー、消去エラー、リークエラーである。
従来の研究によると、漏洩エラーは消去エラーに変換可能である。
残る問題は、このような(変換された)消去エラーが継続的に発生して蓄積されることである。
従来の提案では、予備の原子が格納されている貯水池から計算領域へ原子を直接輸送し、計算と誤り訂正を行い、原子の損失を補正するものだった。
しかし、原子の輸送には長い時間がかかるため、実際には周囲の量子ビットに副作用がある。
本研究では,回路ベースモンテカルロシミュレーションによる平面コードへの影響評価を行い,その問題,すなわちkシフト消去回復スキームを許容する新しい手法を提案する。
提案方式では, オンラインコード変形を用いて消去を許容し, 消去エラーが蓄積された不完全配列から, オフライン光ツイーザによって消去エラーが修正された完全配列へ論理量子ビットを繰り返し転送し, 大量の消去を許容する。
さらに,その領域から論理量子ビットを退避させながら原子配列の消去誤差を補正するので,消去補正のための光ツイーザの操作は論理データを構成する量子ビットを妨害しない。
我々はRydberg原子量子コンピュータが実現可能なフォールトトレランスを実現するための実用的な方向を提供すると考えている。
Rydberg atom array with optical tweezers is a promising candidate for a fault-tolerant quantum computer, thanks to its good properties such as scalability, long coherence time and optical accessibility for communication. A big barrier to overcome is non-Pauli errors, erasure errors and leakage errors. Conventional work has revealed that leakage error is convertible to erasure error. A remaining problem is that such (converted) erasure errors continuously happen and accumulate. The previous proposal involved transporting atoms directly from the reservoir area, where atoms are stored for spare, to the computational area, where the computation and the error correction are processed, to correct atom loss. However, transporting atoms takes a long time and has side effects on surrounding qubits in practice. In this study, we evaluate the effects on planar code by circuit-based Monte Carlo simulation which has depolarizing errors and erasure errors, and propose a new scheme to tolerate that problem, namely, k-shift erasure recovery scheme. Our scheme uses online code deformation to tolerate erasures and repeatedly transfers the logical qubit from an imperfect array in which erasure errors accumulated to another perfect array in which erasure errors have been fixed by offline optical tweezers, to tolerate a large (accumulated) number of erasures. Furthermore, our scheme corrects erasure errors of atom arrays while logical qubits are evacuated from that area to correct; therefore, manipulating optical tweezers for erasure correction does not disturb qubits that compose logical data. We believe that our scheme provides practical directions for Rydberg atom quantum computers to realize feasible fault-tolerance. | 翻訳日:2024-05-07 22:46:58 公開日:2024-05-05 |
# 音声連鎖の分離:クロスモーダル・コンディショナル・オーディオ・ビジュアル・ターゲット音声抽出
Separate in the Speech Chain: Cross-Modal Conditional Audio-Visual Target Speech Extraction ( http://arxiv.org/abs/2404.12725v2 ) ライセンス: Link先を確認 | Zhaoxi Mu, Xinyu Yang, | (参考訳) 視覚的手がかりの統合により、対象の音声抽出タスクのパフォーマンスが再活性化され、フィールドの前面に昇格した。
にもかかわらず、このマルチモーダル学習パラダイムは、しばしばモダリティの不均衡の課題に直面する。
音声・視覚的対象音声抽出タスクでは、音声モダリティが支配的になりがちであり、視覚誘導の重要性を覆す可能性がある。
そこで本研究では,音声連鎖の概念から着想を得たAVSepChainを提案する。
提案手法は,音声・視覚的対象音声抽出タスクを,音声知覚と音声生成の2段階に分割する。
音声認識の段階では、音声は支配的なモダリティとして機能し、視覚情報は条件的モダリティとして機能する。
逆に、音声生成段階では、役割が逆転する。
このモダリティ状態の変換は、モダリティの不均衡の問題を軽減することを目的としている。
さらに、生成した音声によって伝達される意味情報が、音声生成段階における唇の動きによって伝達される意味情報と一致することを保証するために、コントラッシブなセマンティックマッチング損失を導入する。
音声・視覚的ターゲット音声抽出のための複数のベンチマークデータセットを用いて行った広範囲な実験を通して,提案手法が達成した優れた性能を示す。
The integration of visual cues has revitalized the performance of the target speech extraction task, elevating it to the forefront of the field. Nevertheless, this multi-modal learning paradigm often encounters the challenge of modality imbalance. In audio-visual target speech extraction tasks, the audio modality tends to dominate, potentially overshadowing the importance of visual guidance. To tackle this issue, we propose AVSepChain, drawing inspiration from the speech chain concept. Our approach partitions the audio-visual target speech extraction task into two stages: speech perception and speech production. In the speech perception stage, audio serves as the dominant modality, while visual information acts as the conditional modality. Conversely, in the speech production stage, the roles are reversed. This transformation of modality status aims to alleviate the problem of modality imbalance. Additionally, we introduce a contrastive semantic matching loss to ensure that the semantic information conveyed by the generated speech aligns with the semantic information conveyed by lip movements during the speech production stage. Through extensive experiments conducted on multiple benchmark datasets for audio-visual target speech extraction, we showcase the superior performance achieved by our proposed method. | 翻訳日:2024-05-07 22:46:58 公開日:2024-05-05 |
# トポロジーを用いた深部回帰表現学習
Deep Regression Representation Learning with Topology ( http://arxiv.org/abs/2404.13904v2 ) ライセンス: Link先を確認 | Shihao Zhang, kenji kawaguchi, Angela Yao, | (参考訳) 表現学習を研究するほとんどの研究は、分類と無視の回帰にのみ焦点をあてている。
しかし、学習目的と2つのタスクの表現トポロジは基本的に異なる:分類はクラス分離を目標とし、非連結表現につながる。
そこで我々は,回帰表現の有効性が,そのトポロジによってどのように影響されるのかを,インフォメーション・ボトルネック(IB)の原理に基づいて検討する。
IB原則は、有効性表現を学習するための原則を提供する重要なフレームワークである。
我々はそれと回帰表現のトポロジーの間に2つの関係を確立する。
第1の接続は、特徴空間の低い内在次元が表現 Z の複雑さの減少を意味することを明らかにし、この複雑さは、対象空間 Y 上の Z の条件エントロピーとして定量化することができ、一般化誤差の上界として機能する。
第二の接続は、対象空間と位相的に類似した特徴空間を学ぶことが、IB原理とよりよく一致することを示唆している。
これら2つの接続に基づいて,特徴空間の内在次元と対象空間の位相に一致する回帰に特有な正則化器PH-Regを導入する。
合成および実世界の回帰タスクの実験はPH-Regの利点を示している。
Most works studying representation learning focus only on classification and neglect regression. Yet, the learning objectives and therefore the representation topologies of the two tasks are fundamentally different: classification targets class separation, leading to disconnected representations, whereas regression requires ordinality with respect to the target, leading to continuous representations. We thus wonder how the effectiveness of a regression representation is influenced by its topology, with evaluation based on the Information Bottleneck (IB) principle. The IB principle is an important framework that provides principles for learning effectiveness representations. We establish two connections between it and the topology of regression representations. The first connection reveals that a lower intrinsic dimension of the feature space implies a reduced complexity of the representation Z. This complexity can be quantified as the conditional entropy of Z on the target space Y and serves as an upper bound on the generalization error. The second connection suggests learning a feature space that is topologically similar to the target space will better align with the IB principle. Based on these two connections, we introduce PH-Reg, a regularizer specific to regression that matches the intrinsic dimension and topology of the feature space with the target space. Experiments on synthetic and real-world regression tasks demonstrate the benefits of PH-Reg. | 翻訳日:2024-05-07 22:46:58 公開日:2024-05-05 |
# LLMはディープラーニングテストをどのようにサポートするか? : 画像変異のレンズによる総合的研究
How do LLMs Support Deep Learning Testing? A Comprehensive Study Through the Lens of Image Mutation ( http://arxiv.org/abs/2404.13945v2 ) ライセンス: Link先を確認 | Liwen Wang, Yuanyuan Yuan, Ao Sun, Zongjie Li, Pingchuan Ma, Daoyuan Wu, Shuai Wang, | (参考訳) ビジュアルディープラーニング(VDL)システムは、画像認識、オブジェクト検出、自律運転といった現実世界のアプリケーションで大きな成功を収めている。
VDLの信頼性を評価するために、主なアプローチはソフトウェアテストであり、画像意味論よりも多様で制御可能な突然変異を必要とする。
MLLM(Multi-modal large language model)の急速な開発により、命令駆動方式による画像突然変異の可能性も導入された。
ユーザーは自由に所望の突然変異を記述でき、MLLMは変異した画像を生成できる。
しかしながら、VDLテストにおけるMLLM生成テストインプットの品質はほとんど解明されていない。
本研究はMLLMの妥当性を評価するための最初の研究である。
1)MLLM変異画像の意味的妥当性
2)MLLM変更画像とテキスト指示(プロンプト)のアライメント
3)異なる突然変異がどのように意味を保ち続けるべきかの忠実さ、そして
4) VDL断層の検出の有効性について検討した。
大規模な人間の研究と定量的評価により、画像突然変異のカバードセマンティクスを拡大するMLLMの有望なポテンシャルを同定する。
特に、 SoTA MLLM (例: GPT-4V) は、画像の既存の意味論(回転のような伝統的な突然変異のように)の編集において、サポートや実行に失敗したが、彼らは、画像に余分な意味論をもたらす「セマンティック・アダプティブ(semantic-additive)」な突然変異(例: "dress a dog with clothes")を使用して、高品質なテストインプットを生成する。
したがって、MLLMベースの突然変異は従来の突然変異を補完する重要な要因であり、MLLMベースの手法と従来の画像突然変異を組み合わせて総合的かつ信頼性の高い検査を行うための将来的なVDLテストタスクを提唱する。
Visual deep learning (VDL) systems have shown significant success in real-world applications like image recognition, object detection, and autonomous driving. To evaluate the reliability of VDL, a mainstream approach is software testing, which requires diverse and controllable mutations over image semantics. The rapid development of multi-modal large language models (MLLMs) has introduced revolutionary image mutation potentials through instruction-driven methods. Users can now freely describe desired mutations and let MLLMs generate the mutated images. However, the quality of MLLM-produced test inputs in VDL testing remains largely unexplored. We present the first study, aiming to assess MLLMs' adequacy from 1) the semantic validity of MLLM mutated images, 2) the alignment of MLLM mutated images with their text instructions (prompts), 3) the faithfulness of how different mutations preserve semantics that are ought to remain unchanged, and 4) the effectiveness of detecting VDL faults. With large-scale human studies and quantitative evaluations, we identify MLLM's promising potentials in expanding the covered semantics of image mutations. Notably, while SoTA MLLMs (e.g., GPT-4V) fail to support or perform worse in editing existing semantics in images (as in traditional mutations like rotation), they generate high-quality test inputs using "semantic-additive" mutations (e.g., "dress a dog with clothes"), which bring extra semantics to images; these were infeasible for past approaches. Hence, we view MLLM-based mutations as a vital complement to traditional mutations, and advocate future VDL testing tasks to combine MLLM-based methods and traditional image mutations for comprehensive and reliable testing. | 翻訳日:2024-05-07 22:37:13 公開日:2024-05-05 |
# 物理学に基づく顕微鏡による報酬駆動画像解析
Physics-based reward driven image analysis in microscopy ( http://arxiv.org/abs/2404.14146v3 ) ライセンス: Link先を確認 | Kamyar Barakati, Hui Yuan, Amit Goyal, Sergei V. Kalinin, | (参考訳) 電子顕微鏡の出現により、複雑な物質のナノメートルと原子分解画像を取得する能力が拡大した。
結果として得られる膨大なデータセットは、典型的には人間のオペレータによって分析される。複数の分析ステップと、それに対応する複雑な分析ワークフローの構築と最適化の必要性により、本質的に困難なプロセスである。
本稿では,ベイズ最適化と結合したリワード関数の概念に基づく手法を提案し,画像解析のワークフローを動的に最適化する。
Reward関数は実験目的やより広い文脈と密接に一致するように設計されており、分析が完了すると定量化される。
ここでは、イオン照射した$(Y, Dy)Ba_2Cu_3O_{7-\delta}$薄膜の断面高角環状暗視野(HAADF)像をモデル系として用いた。
報酬関数は、期待される材料密度と原子間隔に基づいて形成され、古典的なラプラシアン・オブ・ガウス法(LoG)の多目的最適化に使用された。
これらの結果はDCNNセグメンテーションに対してベンチマークすることができる。
この最適化されたLoG*は、追加ノイズの存在下でDCNNと好意的に比較する。
さらに、偏った部分領域の同定に対する報酬関数のアプローチを拡張し、物理駆動の報酬関数と高次元クラスタリングのアクション空間を作成する。
提案手法は,従来のDCNNに基づく推論よりもはるかに高速で計算コストの低い複雑な解析ワークフローをリアルタイムに最適化し,精度と人間の定義した目的に整合した結果の達成を確実にするものである。
The rise of electron microscopy has expanded our ability to acquire nanometer and atomically resolved images of complex materials. The resulting vast datasets are typically analyzed by human operators, an intrinsically challenging process due to the multiple possible analysis steps and the corresponding need to build and optimize complex analysis workflows. We present a methodology based on the concept of a Reward Function coupled with Bayesian Optimization, to optimize image analysis workflows dynamically. The Reward Function is engineered to closely align with the experimental objectives and broader context and is quantifiable upon completion of the analysis. Here, cross-section, high-angle annular dark field (HAADF) images of ion-irradiated $(Y, Dy)Ba_2Cu_3O_{7-\delta}$ thin-films were used as a model system. The reward functions were formed based on the expected materials density and atomic spacings and used to drive multi-objective optimization of the classical Laplacian-of-Gaussian (LoG) method. These results can be benchmarked against the DCNN segmentation. This optimized LoG* compares favorably against DCNN in the presence of the additional noise. We further extend the reward function approach towards the identification of partially-disordered regions, creating a physics-driven reward function and action space of high-dimensional clustering. We pose that with correct definition, the reward function approach allows real-time optimization of complex analysis workflows at much higher speeds and lower computational costs than classical DCNN-based inference, ensuring the attainment of results that are both precise and aligned with the human-defined objectives. | 翻訳日:2024-05-07 22:37:13 公開日:2024-05-05 |
# 不明瞭な光子の効率的な蒸留のための一般的なプロトコル
General protocols for the efficient distillation of indistinguishable photons ( http://arxiv.org/abs/2404.14217v2 ) ライセンス: Link先を確認 | Jason Saied, Jeffrey Marshall, Namit Anand, Eleanor G. Rieffel, | (参考訳) 高純度で識別不能な光子は、量子情報処理で使用するための前提条件である。
そこで本研究では, 従来よりも大幅に改善された未分化光子の蒸留のためのプロトコルを導入し, 資源要求値が$n$に線形にスケールすることで, 識別可能性の誤差率を$n$に削減する。
本稿では、離散フーリエ変換、アダマール(シルヴェスター)行列、および有限アーベル群上のより一般的なフーリエ変換に基づいて、それらの性能に関する解析的および数値的な結果を与える。
我々は, これらの蒸留プロトコルの挙動を理解する上で, 抑制法則を規定する同じ対称性が重要であることを観察した。
また、$n$-光子離散フーリエ変換の場合、この抑制法則は置換対称性に基づくよく知られたゼロ透過法則によって正確に特徴づけられる。
Highly pure and indistinguishable photons are a prerequisite for use in quantum information processing. We introduce protocols for the distillation of indistinguishable photons that offer a significant improvement over previous work, reducing distinguishability error rates by a factor of $n$, with resource requirements scaling linearly in $n$. We present the protocols, based on the discrete Fourier transform, Hadamard (Sylvester) matrices, and more general Fourier transforms on finite abelian groups, then give both analytical and numerical results regarding their performance. We observe that the same symmetry properties governing suppression laws are instrumental in understanding the behavior of these distillation protocols. We also prove that for the $n$-photon discrete Fourier transform, the suppression laws are exactly characterized by the well-known Zero Transmission Law based on permutation symmetry if and only if $n$ is a prime power. | 翻訳日:2024-05-07 22:37:13 公開日:2024-05-05 |
# 医療産業における大規模言語モデル応用の評価に関する総合的研究
A Comprehensive Survey on Evaluating Large Language Model Applications in the Medical Industry ( http://arxiv.org/abs/2404.15777v2 ) ライセンス: Link先を確認 | Yining Huang, Keke Tang, Meilian Chen, | (参考訳) 2017年のTransformerアーキテクチャの開始以来、GPTやBERTのような大規模言語モデル(LLM)は大幅に進化し、言語理解と生成の高度な能力を持つ様々な産業に影響を与えた。
これらのモデルは、医療分野を変革する可能性を示し、その効果的かつ倫理的な展開を保証するための特別な評価フレームワークの必要性を強調している。
この包括的調査は、医療におけるLSMの広範な適用と必要な評価を概説し、医療の成果を高める上で、その能力を完全に活用するための実証的検証の重要性を強調した。
本調査は,臨床環境,医療用テキストデータ処理,研究,教育,公衆衛生への意識といった分野におけるLCM応用の詳細な分析を行うために構成されている。
まず,臨床応用,医用テキストデータ処理,情報検索,データ分析,医学論文作成,教育コンテンツ生成などの業務において,その業績に基づいて評価される役割について検討する。
その後のセクションでは、これらの評価で使用される方法論を掘り下げ、モデルの有効性、正確性、倫理的整合性を評価するために使用されるベンチマークとメトリクスについて議論した。
本調査は,医療従事者,研究者,政策立案者に対して,医療応用におけるLCMの潜在的な強みと限界を包括的に理解することを目的としている。
この調査は、評価プロセスとLSMを医療に組み込む上で直面する課題に関する詳細な洞察を提供することによって、これらの強力なモデルの責任ある開発と展開をガイドし、厳格な倫理基準を維持しながら、その潜在能力を最大限に活用することを目指している。
Since the inception of the Transformer architecture in 2017, Large Language Models (LLMs) such as GPT and BERT have evolved significantly, impacting various industries with their advanced capabilities in language understanding and generation. These models have shown potential to transform the medical field, highlighting the necessity for specialized evaluation frameworks to ensure their effective and ethical deployment. This comprehensive survey delineates the extensive application and requisite evaluation of LLMs within healthcare, emphasizing the critical need for empirical validation to fully exploit their capabilities in enhancing healthcare outcomes. Our survey is structured to provide an in-depth analysis of LLM applications across clinical settings, medical text data processing, research, education, and public health awareness. We begin by exploring the roles of LLMs in different medical applications, detailing how they are evaluated based on their performance in tasks such as clinical application, medical text data processing, information retrieval, data analysis, medical scientific writing, educational content generation etc. The subsequent sections delve into the methodologies employed in these evaluations, discussing the benchmarks and metrics used to assess the models' effectiveness, accuracy, and ethical alignment. Through this survey, we aim to equip healthcare professionals, researchers, and policymakers with a comprehensive understanding of the potential strengths and limitations of LLMs in medical applications. By providing detailed insights into the evaluation processes and the challenges faced in integrating LLMs into healthcare, this survey seeks to guide the responsible development and deployment of these powerful models, ensuring they are harnessed to their full potential while maintaining stringent ethical standards. | 翻訳日:2024-05-07 22:37:13 公開日:2024-05-05 |
# ポジションペーパー:文脈のない(ビジョンモデル)の説明はしない。
Position paper: Do not explain (vision models) without context ( http://arxiv.org/abs/2404.18316v2 ) ライセンス: Link先を確認 | Paulina Tomaszewska, Przemysław Biecek, | (参考訳) 写真に写っている聴診器は、隣の人を医者か患者にしますか?
これは、もちろん、2つのオブジェクトの文脈的関係に依存する。
もし明らかなら、視覚モデルのための説明法は文脈情報を使うのではないだろうか。
本稿では,(1)文脈情報を考慮していないことを指摘して,コンピュータビジョンモデルを説明する最も一般的な手法をレビューし,(2)空間コンテキストが重要な役割を果たす実世界のユースケースの例を示し,(3)コンピュータビジョンモデルを説明する上で,文脈情報のより良い活用につながる可能性のある新たな研究方向を提案する。
Does the stethoscope in the picture make the adjacent person a doctor or a patient? This, of course, depends on the contextual relationship of the two objects. If it is obvious, why don not explanation methods for vision models use contextual information? In this paper, we (1) review the most popular methods of explaining computer vision models by pointing out that they do not take into account context information, (2) provide examples of real-world use cases where spatial context plays a significant role, (3) propose new research directions that may lead to better use of context information in explaining computer vision models, (4) argue that a change in approach to explanations is needed from 'where' to 'how'. | 翻訳日:2024-05-07 20:39:26 公開日:2024-05-05 |
# 低品質データに対するマルチモーダルフュージョン:包括的調査
Multimodal Fusion on Low-quality Data: A Comprehensive Survey ( http://arxiv.org/abs/2404.18947v2 ) ライセンス: Link先を確認 | Qingyang Zhang, Yake Wei, Zongbo Han, Huazhu Fu, Xi Peng, Cheng Deng, Qinghua Hu, Cai Xu, Jie Wen, Di Hu, Changqing Zhang, | (参考訳) マルチモーダル融合は、より正確な予測を目標として、複数のモーダルからの情報を統合することに焦点を当てており、自律運転や診断を含む幅広いシナリオにおいて顕著な進歩を遂げている。
しかし、マルチモーダル融合の信頼性は、特に低品質なデータ設定下では明らかにされていない。
本稿では,野生におけるマルチモーダル融合の共通課題と最近の進歩を調査し,それらを包括的分類法で示す。
データ中心の視点では,(1)不均質なノイズで汚染されるノイズの多いマルチモーダルデータ,(2)いくつかのモーダルが欠落している不完全なマルチモーダルデータ,(3)異なるモーダルの性質や性質が著しく異なる不均衡なマルチモーダルデータ,(4)各モーダルの品質が異なるサンプルに対して動的に変化する品質変化のマルチモーダルデータである。
この新たな分類によって、研究者はフィールドの状態を理解し、いくつかの潜在的な方向を特定することができる。
また、この分野のオープンな問題と、今後の興味深い研究の方向性についても論じる。
Multimodal fusion focuses on integrating information from multiple modalities with the goal of more accurate prediction, which has achieved remarkable progress in a wide range of scenarios, including autonomous driving and medical diagnosis. However, the reliability of multimodal fusion remains largely unexplored especially under low-quality data settings. This paper surveys the common challenges and recent advances of multimodal fusion in the wild and presents them in a comprehensive taxonomy. From a data-centric view, we identify four main challenges that are faced by multimodal fusion on low-quality data, namely (1) noisy multimodal data that are contaminated with heterogeneous noises, (2) incomplete multimodal data that some modalities are missing, (3) imbalanced multimodal data that the qualities or properties of different modalities are significantly different and (4) quality-varying multimodal data that the quality of each modality dynamically changes with respect to different samples. This new taxonomy will enable researchers to understand the state of the field and identify several potential directions. We also provide discussion for the open problems in this field together with interesting future research directions. | 翻訳日:2024-05-07 20:39:25 公開日:2024-05-05 |
# バリア認証によるデータ駆動型許容安全制御
Data-Driven Permissible Safe Control with Barrier Certificates ( http://arxiv.org/abs/2405.00136v2 ) ライセンス: Link先を確認 | Rayan Mazouz, John Skovbekk, Frederik Baymler Mathiesen, Eric Frew, Luca Laurenti, Morteza Lahijanian, | (参考訳) 本稿では,バリア証明書を用いて,未知のダイナミクスを持つ確率的システムのためのデータから,安全戦略の最大セットを特定する手法を提案する。
最初のステップは、ガウス過程(GP)回帰を通してシステムの力学を学習し、この推定に対する確率的誤差を取得することである。
そこで我々は,学習したGPモデルを用いて,一括確率障壁関数を構築するアルゴリズムを開発し,最大セットが特定されるまで最悪の制御を逐次プルーニングする手法を提案する。
許容可能な戦略は、真のシステムに対する確率論的安全性を維持することが保証される。
豊富な戦略空間は、安全を維持しながら追加のデータ収集と複雑な振る舞いを可能にするため、これは学習可能なシステムにとって特に重要である。
線形系および非線形系のケーススタディでは、システムの学習のためのデータセットのサイズが増加すると許容可能な戦略セットが成長することを示した。
This paper introduces a method of identifying a maximal set of safe strategies from data for stochastic systems with unknown dynamics using barrier certificates. The first step is learning the dynamics of the system via Gaussian process (GP) regression and obtaining probabilistic errors for this estimate. Then, we develop an algorithm for constructing piecewise stochastic barrier functions to find a maximal permissible strategy set using the learned GP model, which is based on sequentially pruning the worst controls until a maximal set is identified. The permissible strategies are guaranteed to maintain probabilistic safety for the true system. This is especially important for learning-enabled systems, because a rich strategy space enables additional data collection and complex behaviors while remaining safe. Case studies on linear and nonlinear systems demonstrate that increasing the size of the dataset for learning the system grows the permissible strategy set. | 翻訳日:2024-05-07 20:39:25 公開日:2024-05-05 |
# 一般化可能な概念学習のための自己説明型ニューラルネットワーク
A Self-explaining Neural Architecture for Generalizable Concept Learning ( http://arxiv.org/abs/2405.00349v2 ) ライセンス: Link先を確認 | Sanchit Sinha, Guangzhi Xiong, Aidong Zhang, | (参考訳) 大規模アプリケーションにおけるディープニューラルネットワークの普及に伴い、意思決定プロセスの背後にある説明可能性への需要が高まっている。
概念学習モデルは、人間の理解と整合した抽象的な実体である高レベルの「概念」を学習しようと試み、それによってDNNアーキテクチャへの解釈可能性を提供する。
しかし,本論文では,モデルが類似クラス間の一貫した概念を学習できないような概念忠実性の欠如と,学習された概念を同じタスクのために新しいドメインに一般化できないような概念相互運用の限界という,現在のSOTA概念学習アプローチが大きな2つの問題に悩まされていることを実証する。
これらを念頭に置いて,ドメイン間の概念学習のための新しい自己説明型アーキテクチャを提案する。
一 代表的概念選択のための新しいコンセプト・サリエンシ・ネットワークを組み込むこと。
二 対照的な学習を利用して代表的領域不変概念を捉えること。
三 ドメイン間のコンセプトアライメントを改善するために、新しいプロトタイプベースのコンセプトグラウンドライゼーションを使用する。
提案手法は,現在広く使われている4つの実世界のデータセットに対するSOTA概念学習手法に対して有効であることを示す。
実験の結果,提案手法は,概念重なりとドメイン適応性能による概念相互運用による概念忠実度を両立させることがわかった。
With the wide proliferation of Deep Neural Networks in high-stake applications, there is a growing demand for explainability behind their decision-making process. Concept learning models attempt to learn high-level 'concepts' - abstract entities that align with human understanding, and thus provide interpretability to DNN architectures. However, in this paper, we demonstrate that present SOTA concept learning approaches suffer from two major problems - lack of concept fidelity wherein the models fail to learn consistent concepts among similar classes and limited concept interoperability wherein the models fail to generalize learned concepts to new domains for the same task. Keeping these in mind, we propose a novel self-explaining architecture for concept learning across domains which - i) incorporates a new concept saliency network for representative concept selection, ii) utilizes contrastive learning to capture representative domain invariant concepts, and iii) uses a novel prototype-based concept grounding regularization to improve concept alignment across domains. We demonstrate the efficacy of our proposed approach over current SOTA concept learning approaches on four widely used real-world datasets. Empirical results show that our method improves both concept fidelity measured through concept overlap and concept interoperability measured through domain adaptation performance. | 翻訳日:2024-05-07 20:39:25 公開日:2024-05-05 |
# LLMの微調整を温めるための原則データ選択
Get more for less: Principled Data Selection for Warming Up Fine-Tuning in LLMs ( http://arxiv.org/abs/2405.02774v1 ) ライセンス: Link先を確認 | Feiyang Kang, Hoang Anh Just, Yifan Sun, Himanshu Jahagirdar, Yuanzhi Zhang, Rongxing Du, Anit Kumar Sahu, Ruoxi Jia, | (参考訳) この研究は、膨大なラベルのないオープンデータから事前訓練された言語モデルへの活用と選択に焦点を当てている。
目標は、要求されるパフォーマンスレベルを達成しつつ、後続の微調整のためのコストのかかるドメイン固有のデータの必要性を最小限にすることである。
多くのデータ選択アルゴリズムは、小規模なアプリケーション向けに設計されており、私たちのコンテキストには適さないが、いくつかの新興メソッドは、言語データスケールに対応している。
しかし、ターゲットの分布に合わせてデータを優先順位付けすることが多い。
この戦略は、モデルをスクラッチからトレーニングするときに有効かもしれないが、モデルが異なるディストリビューションで事前トレーニングされている場合、限られた結果が得られる。
事前の作業から切り離された私たちのキーアイデアは、トレーニング前の分布を目標の分布に近づけるデータを選択することです。
特定の条件下での微調整タスクに対するこのアプローチの最適性を示す。
我々は,NLU,NLG,ゼロショットといった多種多様なタスクに対して,最大2.7Bまでのモデルで提案手法の有効性を実証し,他の選択手法を一貫して上回っていることを示す。
さらに,提案手法は既存の手法よりもはるかに高速で,GPU時間内に数百万のサンプルにスケールアップする。
私たちのコードはオープンソース(コードリポジトリ: https://anonymous.4open.science/r/DV4LLM-D761/ )です。
微調整は多種多様なタスクにまたがってパフォーマンスを向上する大きな可能性を秘めているが、それに伴うコストが広範に採用を制限することも多い。
This work focuses on leveraging and selecting from vast, unlabeled, open data to pre-fine-tune a pre-trained language model. The goal is to minimize the need for costly domain-specific data for subsequent fine-tuning while achieving desired performance levels. While many data selection algorithms have been designed for small-scale applications, rendering them unsuitable for our context, some emerging methods do cater to language data scales. However, they often prioritize data that aligns with the target distribution. While this strategy may be effective when training a model from scratch, it can yield limited results when the model has already been pre-trained on a different distribution. Differing from prior work, our key idea is to select data that nudges the pre-training distribution closer to the target distribution. We show the optimality of this approach for fine-tuning tasks under certain conditions. We demonstrate the efficacy of our methodology across a diverse array of tasks (NLU, NLG, zero-shot) with models up to 2.7B, showing that it consistently surpasses other selection methods. Moreover, our proposed method is significantly faster than existing techniques, scaling to millions of samples within a single GPU hour. Our code is open-sourced (Code repository: https://anonymous.4open.science/r/DV4LLM-D761/ ). While fine-tuning offers significant potential for enhancing performance across diverse tasks, its associated costs often limit its widespread adoption; with this work, we hope to lay the groundwork for cost-effective fine-tuning, making its benefits more accessible. | 翻訳日:2024-05-07 18:30:11 公開日:2024-05-05 |
# 3次元における移動物体の瞬時知覚
Instantaneous Perception of Moving Objects in 3D ( http://arxiv.org/abs/2405.02781v1 ) ライセンス: Link先を確認 | Di Liu, Bingbing Zhuang, Dimitris N. Metaxas, Manmohan Chandraker, | (参考訳) 周囲の交通参加者の3次元運動の認識は、運転安全に不可欠である。
既存の研究は主に一般的な大きな動きに焦点をあてるが、駐車位置の停止標識付近の行動など、安全上重要な運転行動のニュアンスを示すため、微妙な動きの即時検出と定量化が重要であると我々は主張する。
私たちは、この未調査の課題を掘り下げ、そのユニークな課題を調べ、慎重に設計されたベンチマークとともにソリューションを開発しました。
特に、スパースライダー点雲の連続したフレーム間の対応が欠如しているため、静的な物体が動いているように見えるかもしれない。
これは真の物体の動きと干渉し、特に微妙な動きに対して、正確な推定において曖昧さを呈する。
そこで,本稿では,物体点雲の局所的占有化を利用して形状クエを密度化し,水泳アーティファクトの影響を軽減することを提案する。
占有完了は、移動物体の検出と動きの推定とともに、物体が動き始めると即座に、エンドツーエンドで学習される。
広汎な実験により,標準的な3次元動作推定手法よりも優れた性能を示し,特に微妙な動作を専門的に扱う方法を強調した。
The perception of 3D motion of surrounding traffic participants is crucial for driving safety. While existing works primarily focus on general large motions, we contend that the instantaneous detection and quantification of subtle motions is equally important as they indicate the nuances in driving behavior that may be safety critical, such as behaviors near a stop sign of parking positions. We delve into this under-explored task, examining its unique challenges and developing our solution, accompanied by a carefully designed benchmark. Specifically, due to the lack of correspondences between consecutive frames of sparse Lidar point clouds, static objects might appear to be moving - the so-called swimming effect. This intertwines with the true object motion, thereby posing ambiguity in accurate estimation, especially for subtle motions. To address this, we propose to leverage local occupancy completion of object point clouds to densify the shape cue, and mitigate the impact of swimming artifacts. The occupancy completion is learned in an end-to-end fashion together with the detection of moving objects and the estimation of their motion, instantaneously as soon as objects start to move. Extensive experiments demonstrate superior performance compared to standard 3D motion estimation approaches, particularly highlighting our method's specialized treatment of subtle motions. | 翻訳日:2024-05-07 18:30:11 公開日:2024-05-05 |
# 自動脳異常検出のための自己教師型テキストビジョンフレームワーク
A self-supervised text-vision framework for automated brain abnormality detection ( http://arxiv.org/abs/2405.02782v1 ) ライセンス: Link先を確認 | David A. Wood, Emily Guilhem, Sina Kafiabadi, Ayisha Al Busaidi, Kishan Dissanayake, Ahmed Hammam, Nina Mansoor, Matthew Townend, Siddharth Agarwal, Yiran Wei, Asif Mazumder, Gareth J. Barker, Peter Sasieni, Sebastien Ourselin, James H. Cole, Thomas C. Booth, | (参考訳) 大規模で専門家によるラベル付きデータセットでトレーニングされたニューラルネットワークは、さまざまな医療画像認識タスクの最先端と見なされている。
しかしながら、分類されたラベル付きデータセットは、事前に定義された固定されたクラスのセットに分類の生成と制約に時間を要する。
特に神経放射線学の応用においては、これは臨床応用の障壁となる。
これらの課題に対処するため,我々は,脳MRI検査における臨床的に関連のある異常を検出するための自己教師型テキストビジョンフレームワークを,自由テキスト神経放射線学レポートに付随する豊富な情報を直接活用して提案する。
トレーニングアプローチは2段階で構成されました。
まず、専門的な神経放射線学言語モデルであるNeuroBERTを用いて、ドメイン固有の自己教師型学習タスクを通して、神経放射線学レポート(N = 50,523)の固定次元ベクトル表現を生成する訓練を行った。
次に、畳み込みニューラルネットワーク(MRIシーケンス毎に1つ)は、平均二乗誤差損失を最適化することにより、個々の脳スキャンを対応するテキストベクトル表現にマッピングすることを学ぶ。
トレーニングを済ませると、私たちのテキストビジョンフレームワークは、適切なクエリ文(例えば、「脳卒中」や「脳卒中」など)をスキャンすることで、報告されていない脳MRI検査の異常を検出することができ、自動トリアージを含む様々な分類ベースのアプリケーションを可能にします。
また,本フレームワークは,放射線科医に発見を示唆し,仮報告の誤りを検知するだけでなく,テキスト記述子に基づく現在の症例に関連のある歴史的検査から病理例を検索,表示することで,臨床診断支援ツールとしても機能する可能性がある。
Artificial neural networks trained on large, expert-labelled datasets are considered state-of-the-art for a range of medical image recognition tasks. However, categorically labelled datasets are time-consuming to generate and constrain classification to a pre-defined, fixed set of classes. For neuroradiological applications in particular, this represents a barrier to clinical adoption. To address these challenges, we present a self-supervised text-vision framework that learns to detect clinically relevant abnormalities in brain MRI scans by directly leveraging the rich information contained in accompanying free-text neuroradiology reports. Our training approach consisted of two-steps. First, a dedicated neuroradiological language model - NeuroBERT - was trained to generate fixed-dimensional vector representations of neuroradiology reports (N = 50,523) via domain-specific self-supervised learning tasks. Next, convolutional neural networks (one per MRI sequence) learnt to map individual brain scans to their corresponding text vector representations by optimising a mean square error loss. Once trained, our text-vision framework can be used to detect abnormalities in unreported brain MRI examinations by scoring scans against suitable query sentences (e.g., 'there is an acute stroke', 'there is hydrocephalus' etc.), enabling a range of classification-based applications including automated triage. Potentially, our framework could also serve as a clinical decision support tool, not only by suggesting findings to radiologists and detecting errors in provisional reports, but also by retrieving and displaying examples of pathologies from historical examinations that could be relevant to the current case based on textual descriptors. | 翻訳日:2024-05-07 18:20:16 公開日:2024-05-05 |
# 部分的に観測された確率的反応ネットワークの力学モデルにおける線形雑音近似によるベイズ推定
Linear Noise Approximation Assisted Bayesian Inference on Mechanistic Model of Partially Observed Stochastic Reaction Network ( http://arxiv.org/abs/2405.02783v1 ) ライセンス: Link先を確認 | Wandi Xu, Wei Xie, | (参考訳) そこで本研究では, バイオプロセス・メカニカルモデルの基本構築ブロックである部分的に観察された酵素的確率的反応ネットワーク(SRN)に対する効率的なベイズ推論手法を提案する。
非線形確率微分方程式(SDE)に基づく半観測状態と測定誤差を有する力学モデルによってもたらされる重要な課題に対処するために,力学モデルの構造情報を取り入れた線形雑音近似(LNA)メタモデルを解釈可能なベイズ的更新法を提案する。
次に, MCMCの収束を高速化するために, 導出確率の勾配を利用して効率的な後方サンプリング手法を開発した。
実証的研究は、提案手法が有望な性能を持つことを示す。
To support mechanism online learning and facilitate digital twin development for biomanufacturing processes, this paper develops an efficient Bayesian inference approach for partially observed enzymatic stochastic reaction network (SRN), a fundamental building block of multi-scale bioprocess mechanistic model. To tackle the critical challenges brought by the nonlinear stochastic differential equations (SDEs)-based mechanistic model with partially observed state and having measurement error, an interpretable Bayesian updating linear noise approximation (LNA) metamodel, incorporating the structure information of the mechanistic model, is proposed to approximate the likelihood of observations. Then, an efficient posterior sampling approach is developed by utilizing the gradients of the derived likelihood to speed up the convergence of MCMC. The empirical study demonstrates that the proposed approach has a promising performance. | 翻訳日:2024-05-07 18:20:16 公開日:2024-05-05 |
# MR変換器:磁気共鳴画像を用いた全膝置換予測用視覚変換器
MR-Transformer: Vision Transformer for Total Knee Replacement Prediction Using Magnetic Resonance Imaging ( http://arxiv.org/abs/2405.02784v1 ) ライセンス: Link先を確認 | Chaojie Zhang, Shengjia Chen, Ozkan Cigdem, Haresh Rengaraj Rajamohan, Kyunghyun Cho, Richard Kijowski, Cem M. Deniz, | (参考訳) MRIを用いた人工膝関節置換術(TKR)予測のための変圧器を用いた深層学習モデルMR-Transformerを開発した。
このモデルは、ImageNet事前学習を取り入れ、MR画像から3次元(3D)空間相関をキャプチャする。
提案モデルの性能を,MRIを用いた膝関節損傷診断のための最先端ディープラーニングモデルと比較した。
本研究は, 変形性膝関節症と多施設関節症研究データベースとの対比を4つの異なる組織で検討した。
実験により,MRIを用いたTKR予測における提案モデルの最先端性能が実証された。
A transformer-based deep learning model, MR-Transformer, was developed for total knee replacement (TKR) prediction using magnetic resonance imaging (MRI). The model incorporates the ImageNet pre-training and captures three-dimensional (3D) spatial correlation from the MR images. The performance of the proposed model was compared to existing state-of-the-art deep learning models for knee injury diagnosis using MRI. Knee MR scans of four different tissue contrasts from the Osteoarthritis Initiative and Multicenter Osteoarthritis Study databases were utilized in the study. Experimental results demonstrated the state-of-the-art performance of the proposed model on TKR prediction using MRI. | 翻訳日:2024-05-07 18:20:16 公開日:2024-05-05 |
# 融合注意機構に基づく鉱石選別ネットワーク
Fused attention mechanism-based ore sorting network ( http://arxiv.org/abs/2405.02785v1 ) ライセンス: Link先を確認 | Junjiang Zhen, Bojun Xie, | (参考訳) 深層学習は鉱物資源の同定と分類に大きな影響を与えており、特に鉱業の効率と正確性を向上させる上で重要な役割を担っている。
しかし、伝統的な鉱石の選別法は、特に複雑な鉱物環境では、非効率性と精度の欠如に悩まされることが多い。
これらの課題に対処するために,金鉱石および硫化鉱石鉱石の鉱石データに基づいて,注目機構とマルチスケール機能融合戦略を組み込んだOreYOLO法を提案する。
YOLOv5にプログレッシブな特徴ピラミッド構造を導入し、特徴抽出モジュールに注目機構を組み込むことで、モデルの検出性能と精度を大幅に向上する。
エッジデバイスの様々な鉱石のソートシナリオと配置要件に適応するために、ネットワーク構造は軽量に設計されており、高い精度(それぞれ99.3%と99.2%)を維持しながら、低数のパラメータ(3.458M)と計算複雑性(6.3GFLOP)を達成する。
実験部分では、金鉄鉱石分類訓練のために、6000枚の金鉄鉱石の画像を含むターゲット検出データセットを構築し、YOLOシリーズ、EfficientDet、Faster-RCNN、CenterNetなど、いくつかの比較実験を行い、OreYOLOがこれらのアーキテクチャの一般的な高性能物体検出よりも優れていることを示す。
Deep learning has had a significant impact on the identification and classification of mineral resources, especially playing a key role in efficiently and accurately identifying different minerals, which is important for improving the efficiency and accuracy of mining. However, traditional ore sorting meth- ods often suffer from inefficiency and lack of accuracy, especially in complex mineral environments. To address these challenges, this study proposes a method called OreYOLO, which incorporates an attentional mechanism and a multi-scale feature fusion strategy, based on ore data from gold and sul- fide ores. By introducing the progressive feature pyramid structure into YOLOv5 and embedding the attention mechanism in the feature extraction module, the detection performance and accuracy of the model are greatly improved. In order to adapt to the diverse ore sorting scenarios and the deployment requirements of edge devices, the network structure is designed to be lightweight, which achieves a low number of parameters (3.458M) and computational complexity (6.3GFLOPs) while maintaining high accuracy (99.3% and 99.2%, respectively). In the experimental part, a target detection dataset containing 6000 images of gold and sulfuric iron ore is constructed for gold and sulfuric iron ore classification training, and several sets of comparison experiments are set up, including the YOLO series, EfficientDet, Faster-RCNN, and CenterNet, etc., and the experiments prove that OreYOLO outperforms the commonly used high-performance object detection of these architectures | 翻訳日:2024-05-07 18:20:16 公開日:2024-05-05 |
# 光電界空間分解能向上フレームワーク
Light Field Spatial Resolution Enhancement Framework ( http://arxiv.org/abs/2405.02787v1 ) ライセンス: Link先を確認 | Javeria Shabbir, Muhammad Zeshan. Alam, M. Umair Mukati, | (参考訳) 光場(LF)イメージングは、角と空間の両方の光の分布を捉え、高度な写真技術を可能にする。
しかし、マイクロレンズアレイ(MLA)ベースのカメラは、単一の共有センサによって空間角分解能のトレードオフに直面している。
モジュラーアプローチを用いて,解像度向上のための新しい光場フレームワークを提案する。
第1モジュールは高解像度のオールインフォーカス画像を生成する。
第2モジュールはテクスチャ・トランスフォーマー・ネットワークであり、第1モジュールの出力を基準画像として独立して各光界視点の分解能を高める。
最終モジュールは光場規則性を利用して、すべてのLF画像の視点における解像度を共同的に改善する。
本手法は,定性評価と定量的評価の両方において既存手法よりも優れた性能を示す。
Light field (LF) imaging captures both angular and spatial light distributions, enabling advanced photographic techniques. However, micro-lens array (MLA)- based cameras face a spatial-angular resolution tradeoff due to a single shared sensor. We propose a novel light field framework for resolution enhancement, employing a modular approach. The first module generates a high-resolution, all-in-focus image. The second module, a texture transformer network, enhances the resolution of each light field perspective independently using the output of the first module as a reference image. The final module leverages light field regularity to jointly improve resolution across all LF image perspectives. Our approach demonstrates superior performance to existing methods in both qualitative and quantitative evaluations. | 翻訳日:2024-05-07 18:20:16 公開日:2024-05-05 |
# 完全同型暗号を用いた信頼・保護型疾患分類器
Confidential and Protected Disease Classifier using Fully Homomorphic Encryption ( http://arxiv.org/abs/2405.02790v1 ) ライセンス: Link先を確認 | Aditya Malik, Nalini Ratha, Bharat Yalavarthi, Tilak Sharma, Arjun Kaushik, Charanjit Jutla, | (参考訳) LLM(Large Language Models)が急速に普及するにつれ、個人は、病気の診断などの健康に関する調査など、さまざまな領域での最初の洞察を得るために、会話型AIに目を向けるようになった。
多くのユーザーは、病気のために医療専門家に相談する前に、ChatGPTやBardのようなプラットフォームで潜在的な原因を探している。
これらのプラットフォームは、診断プロセスの合理化、医療従事者の多大な負担軽減、不要な医師の訪問を避けることで、時間とお金の両方を節約することで、貴重な利益を提供する。
しかし、そのようなプラットフォームの利便性にもかかわらず、個人医療データをオンラインで共有することは、悪意のあるプラットフォームの存在や攻撃者の盗聴などのリスクを引き起こす。
プライバシー問題に対処するため,安全かつプライベートな診断システムのためのFHEとDeep Learningを組み合わせた新しいフレームワークを提案する。
このエンドツーエンドのセキュアシステムでは、暗号化された入力データを処理するためにFHE(Fully Homomorphic Encryption)を採用している。
FHEの計算制約を考慮すると、深層ニューラルネットワークとアクティベーション関数をエンクリッド領域に適応させる。
さらに,暗号文要素の和を計算するアルゴリズムも提案する。
厳密な実験を通じて,本手法の有効性を実証する。
提案するフレームワークは,パフォーマンスの低下を最小限に抑えて,厳格なセキュリティとプライバシを実現する。
With the rapid surge in the prevalence of Large Language Models (LLMs), individuals are increasingly turning to conversational AI for initial insights across various domains, including health-related inquiries such as disease diagnosis. Many users seek potential causes on platforms like ChatGPT or Bard before consulting a medical professional for their ailment. These platforms offer valuable benefits by streamlining the diagnosis process, alleviating the significant workload of healthcare practitioners, and saving users both time and money by avoiding unnecessary doctor visits. However, Despite the convenience of such platforms, sharing personal medical data online poses risks, including the presence of malicious platforms or potential eavesdropping by attackers. To address privacy concerns, we propose a novel framework combining FHE and Deep Learning for a secure and private diagnosis system. Operating on a question-and-answer-based model akin to an interaction with a medical practitioner, this end-to-end secure system employs Fully Homomorphic Encryption (FHE) to handle encrypted input data. Given FHE's computational constraints, we adapt deep neural networks and activation functions to the encryted domain. Further, we also propose a faster algorithm to compute summation of ciphertext elements. Through rigorous experiments, we demonstrate the efficacy of our approach. The proposed framework achieves strict security and privacy with minimal loss in performance. | 翻訳日:2024-05-07 18:20:16 公開日:2024-05-05 |
# 遅延整合性学習によるテキスト駆動動作の効率的な生成
Efficient Text-driven Motion Generation via Latent Consistency Training ( http://arxiv.org/abs/2405.02791v1 ) ライセンス: Link先を確認 | Mengxian Hu, Minghao Zhu, Xun Zhou, Qingqing Yan, Shu Li, Chengju Liu, Qijun Chen, | (参考訳) 動き拡散モデルは最近、テキスト駆動による人間の動き生成に成功している。
生成性能は優れていますが,複数ステップのサンプリング機構が複数回,あるいは数百回繰り返し関数評価を繰り返しているため,リアルタイムに推測することは困難です。
そこで本研究では、動作生成のための動作遅延整合性トレーニング(MLCT)について検討し、反復推論時の計算と時間消費を緩和する。
低次元運動潜在空間に拡散パイプラインを適用し,各関数評価の計算負担を軽減する。
MLCTは、確率フロー常微分方程式(PF-ODE)理論を用いて拡散過程を記述し、PF-ODEの軌道上の出力の整合性を維持することにより、先行分布と運動潜在表現分布の間に非常に少ないステップを推測する。
特に、従来の変動制約と比較して、有界、正則、そしてよく再構成された動き潜在表現を最適化する量子化制約を導入する。
さらに,条件付きPF-ODEトラジェクトリシミュレーションを提案し,トレーニングコストを最小化して条件付き生成性能を向上させる。
2つの人体運動生成ベンチマークの大規模な実験により,提案モデルが10 % の時間コストで最先端の性能を達成できることが示されている。
Motion diffusion models have recently proven successful for text-driven human motion generation. Despite their excellent generation performance, they are challenging to infer in real time due to the multi-step sampling mechanism that involves tens or hundreds of repeat function evaluation iterations. To this end, we investigate a motion latent consistency Training (MLCT) for motion generation to alleviate the computation and time consumption during iteration inference. It applies diffusion pipelines to low-dimensional motion latent spaces to mitigate the computational burden of each function evaluation. Explaining the diffusion process with probabilistic flow ordinary differential equation (PF-ODE) theory, the MLCT allows extremely few steps infer between the prior distribution to the motion latent representation distribution via maintaining consistency of the outputs over the trajectory of PF-ODE. Especially, we introduce a quantization constraint to optimize motion latent representations that are bounded, regular, and well-reconstructed compared to traditional variational constraints. Furthermore, we propose a conditional PF-ODE trajectory simulation method, which improves the conditional generation performance with minimal additional training costs. Extensive experiments on two human motion generation benchmarks show that the proposed model achieves state-of-the-art performance with less than 10\% time cost. | 翻訳日:2024-05-07 18:20:16 公開日:2024-05-05 |
# 拡張車線検出のための空間・角・時間情報の共同学習
Jointly Learning Spatial, Angular, and Temporal Information for Enhanced Lane Detection ( http://arxiv.org/abs/2405.02792v1 ) ライセンス: Link先を確認 | Muhammad Zeshan Alam, | (参考訳) 本稿では,光場画像と新しい深層学習モデルを用いて,空間情報,角情報,時間情報を統合することで,車線検出を向上するための新しい手法を提案する。
レンズレットにインスパイアされた2次元光電場表現とLSTMネットワークを用いることで,困難条件下での車線検出を大幅に改善する。
提案手法の有効性を改良したCNNアーキテクチャを用いて実証し,従来の手法よりも優れたフォーマンスを示す。
この統合データアプローチは、車線検出技術を進歩させ、これらの多次元洞察を自動運転車のパーセプ・オプションに活用する新しいモデルを生み出す可能性を示唆している。
This paper introduces a novel approach for enhanced lane detection by integrating spatial, angular, and temporal information through light field imaging and novel deep learning models. Utilizing lenslet-inspired 2D light field representations and LSTM networks, our method significantly improves lane detection in challenging conditions. We demonstrate the efficacy of this approach with modified CNN architectures, showing superior per- formance over traditional methods. Our findings suggest this integrated data approach could advance lane detection technologies and inspire new models that leverage these multidimensional insights for autonomous vehicle percep- tion. | 翻訳日:2024-05-07 18:20:16 公開日:2024-05-05 |
# ImageInWords:ハイパー詳細画像記述のアンロック
ImageInWords: Unlocking Hyper-Detailed Image Descriptions ( http://arxiv.org/abs/2405.02793v1 ) ライセンス: Link先を確認 | Roopal Garg, Andrea Burns, Burcu Karagol Ayan, Yonatan Bitton, Ceslee Montgomery, Yasumasa Onoe, Andrew Bunner, Ranjay Krishna, Jason Baldridge, Radu Soricut, | (参考訳) という長きにわたる警告にもかかわらず、ビジョンランゲージモデルをトレーニングするための正確で詳細な画像記述を作成することは依然として困難である。
現在のデータセットは通常、短い、低粒度で視覚的内容とは無関係な詳細を含む、Webスクラペットによる記述を持つ。
結果として、そのようなデータに基づいてトレーニングされたモデルは、不足した情報、視覚的不整合、幻覚で不快な記述を生成する。
これらの問題に対処するために、超詳細な画像記述をキュレートするための慎重に設計されたヒューマン・イン・ザ・ループ・アノテーション・フレームワークであるImageInWords (IIW)を紹介し、このプロセスから得られた新しいデータセットについて述べる。
本フレームワークは, 可読性, 包括性, 特異性, 幻覚, 人との類似性を考慮し, データセットの品質評価と, 微調整に有効であることを示す。
我々のデータセットは、最近リリースされたデータセット(+66%)とGPT-4V出力(+48%)と比較して、これらの次元で大幅に改善されている。
さらに、IIWデータで微調整されたモデルは、同じ人間の評価次元に沿って前の作業に対して+31%の精度で優れている。
微調整モデルを考えると、テキスト・ツー・イメージ生成と視覚言語推論も評価する。
我々のモデルの記述は、自動化されたメトリクスと人間のメトリクスの両方で判断されるように、オリジナルに最も近い画像を生成することができる。
また、我々のモデルは、ARO、SVO-Probes、Winogroundのデータセットにおいて、最高のベースラインを最大6%上回り、より構成的にリッチな記述を生成する。
Despite the longstanding adage "an image is worth a thousand words," creating accurate and hyper-detailed image descriptions for training Vision-Language models remains challenging. Current datasets typically have web-scraped descriptions that are short, low-granularity, and often contain details unrelated to the visual content. As a result, models trained on such data generate descriptions replete with missing information, visual inconsistencies, and hallucinations. To address these issues, we introduce ImageInWords (IIW), a carefully designed human-in-the-loop annotation framework for curating hyper-detailed image descriptions and a new dataset resulting from this process. We validate the framework through evaluations focused on the quality of the dataset and its utility for fine-tuning with considerations for readability, comprehensiveness, specificity, hallucinations, and human-likeness. Our dataset significantly improves across these dimensions compared to recently released datasets (+66%) and GPT-4V outputs (+48%). Furthermore, models fine-tuned with IIW data excel by +31% against prior work along the same human evaluation dimensions. Given our fine-tuned models, we also evaluate text-to-image generation and vision-language reasoning. Our model's descriptions can generate images closest to the original, as judged by both automated and human metrics. We also find our model produces more compositionally rich descriptions, outperforming the best baseline by up to 6% on ARO, SVO-Probes, and Winoground datasets. | 翻訳日:2024-05-07 18:20:16 公開日:2024-05-05 |
# 点集合としてのグラフ
Graph as Point Set ( http://arxiv.org/abs/2405.02795v1 ) ライセンス: Link先を確認 | Xiyuan Wang, Pan Li, Muhan Zhang, | (参考訳) グラフはエンティティ間の相互接続をモデル化するための基本的なデータ構造である。
反対に、独立した要素を格納する。
グラフ表現を学習するために、現在のグラフニューラルネットワーク(GNN)は、主にメッセージパッシングを使用して相互接続を符号化している。
一方,本研究では,相互接続したノードを独立点の集合に単射的に変換し,グラフ表現の学習にセットエンコーダを用いる新しいグラフ対セット変換手法を提案する。
この変換法は二重の意義を持つ。
まず、セットエンコーダを使ってグラフから学習し、GNNの設計空間を大幅に拡張する。
第二に、特定の集合エンコーダであるTransformerに対して、従来のグラフトランスフォーマーで採用されているすべてのヒューリスティックな構造/位置符号化法とは異なる、グラフ情報を損失なく注入するための、新しく原則化されたアプローチを提供する。
提案手法の有効性を示すために,グラフから変換された点集合を入力として受け入れる変換器アーキテクチャであるPoint Set Transformer (PST)を導入する。
理論的には、PSTは、既存のGNNと比較して、短距離部分構造カウントと短距離経路距離タスクの両方に優れた表現性を示す。
大規模な実験により、PSTの卓越した実世界の性能が検証された。
Transformer以外にも,グラフ・ツー・セット方式の汎用性を確認することで,代表的GNNに匹敵するパフォーマンスを実現する,Deepsetベースのセット・エンコーダも考案した。
Graph is a fundamental data structure to model interconnections between entities. Set, on the contrary, stores independent elements. To learn graph representations, current Graph Neural Networks (GNNs) primarily use message passing to encode the interconnections. In contrast, this paper introduces a novel graph-to-set conversion method that bijectively transforms interconnected nodes into a set of independent points and then uses a set encoder to learn the graph representation. This conversion method holds dual significance. Firstly, it enables using set encoders to learn from graphs, thereby significantly expanding the design space of GNNs. Secondly, for Transformer, a specific set encoder, we provide a novel and principled approach to inject graph information losslessly, different from all the heuristic structural/positional encoding methods adopted in previous graph transformers. To demonstrate the effectiveness of our approach, we introduce Point Set Transformer (PST), a transformer architecture that accepts a point set converted from a graph as input. Theoretically, PST exhibits superior expressivity for both short-range substructure counting and long-range shortest path distance tasks compared to existing GNNs. Extensive experiments further validate PST's outstanding real-world performance. Besides Transformer, we also devise a Deepset-based set encoder, which achieves performance comparable to representative GNNs, affirming the versatility of our graph-to-set method. | 翻訳日:2024-05-07 18:20:16 公開日:2024-05-05 |
# 核、ヒルベルト空間評価ガウス過程、量子状態による標準データ再構成
Canonical data-reconstructions via kernels, Hilbert space-valued Gaussian processes, and quantum states ( http://arxiv.org/abs/2405.02796v1 ) ライセンス: Link先を確認 | Palle E. T. Jorgensen, James Tian, | (参考訳) 演算子評価されたカーネルとその分解の研究において、新しい結果と新しい方向性を提供する。
私たちのアプローチは、より明示的な実現と新しい結果、そして新しいアプリケーションを提供します。
以下を含む。
i) ヒルベルト空間値ガウス過程の明示的共分散解析
(II)量子ゲートの最適化結果(量子情報から)
三 正の演算子評価尺度(POVM)の新たな結果、及び
(iv)量子測定における逆問題に対する新しいアプローチ/再帰
We offer new results and new directions in the study of operator-valued kernels and their factorizations. Our approach provides both more explicit realizations and new results, as well as new applications. These include: (i) an explicit covariance analysis for Hilbert space-valued Gaussian processes, (ii) optimization results for quantum gates (from quantum information), (iii) new results for positive operator-valued measures (POVMs), and (iv) a new approach/result in inverse problems for quantum measurements. | 翻訳日:2024-05-07 18:20:16 公開日:2024-05-05 |
# 視覚領域のプロンプト生成による分布変化への適応
Adapting to Distribution Shift by Visual Domain Prompt Generation ( http://arxiv.org/abs/2405.02797v1 ) ライセンス: Link先を確認 | Zhixiang Chi, Li Gu, Tao Zhong, Huan Liu, Yuanhao Yu, Konstantinos N Plataniotis, Yang Wang, | (参考訳) 本稿では,少数のラベルのないデータを用いてテスト時にモデルを適応させ,分散シフトに対処することを目的とする。
限られた量のデータからドメイン知識を抽出する課題に取り組むためには,事前学習したバックボーンやソースドメインからの相関情報を活用することが重要である。
先行研究は、分布外一般化の強い最近の基礎モデルの利用に失敗した。
さらに、ドメイン中心のデザインは、彼らの作品では味付けされない。
さらに、ソースドメインをモデル化するプロセスと、解離したトレーニング段階に独立して適応する学習プロセスも採用している。
本研究では,基礎モデルの事前計算機能の上にアプローチを提案する。
具体的には、ソースドメインから伝達可能な知識を学ぶための知識銀行を構築します。
ドメイン固有プロンプトに知識バンクを凝縮させるドメインプロンプトジェネレータを導入する。
ドメインプロンプトは、ガイダンスモジュールを介して、視覚的特徴を特定のドメインに向ける。
さらに,ドメイン認識によるコントラスト損失を提案し,メタラーニングを用いてドメイン知識抽出を行う。
ドメイン知識抽出を検証するために,広範囲な実験を行った。
提案手法は,WILDSやDomainNetを含む5つの大規模ベンチマークにおいて,従来よりも優れている。
In this paper, we aim to adapt a model at test-time using a few unlabeled data to address distribution shifts. To tackle the challenges of extracting domain knowledge from a limited amount of data, it is crucial to utilize correlated information from pre-trained backbones and source domains. Previous studies fail to utilize recent foundation models with strong out-of-distribution generalization. Additionally, domain-centric designs are not flavored in their works. Furthermore, they employ the process of modelling source domains and the process of learning to adapt independently into disjoint training stages. In this work, we propose an approach on top of the pre-computed features of the foundation model. Specifically, we build a knowledge bank to learn the transferable knowledge from source domains. Conditioned on few-shot target data, we introduce a domain prompt generator to condense the knowledge bank into a domain-specific prompt. The domain prompt then directs the visual features towards a particular domain via a guidance module. Moreover, we propose a domain-aware contrastive loss and employ meta-learning to facilitate domain knowledge extraction. Extensive experiments are conducted to validate the domain knowledge extraction. The proposed method outperforms previous work on 5 large-scale benchmarks including WILDS and DomainNet. | 翻訳日:2024-05-07 18:20:16 公開日:2024-05-05 |
# Mozartのタッチ: 事前学習された大規模モデルに基づく軽量マルチモーダル音楽生成フレームワーク
Mozart's Touch: A Lightweight Multi-modal Music Generation Framework Based on Pre-Trained Large Models ( http://arxiv.org/abs/2405.02801v1 ) ライセンス: Link先を確認 | Tianze Xu, Jiajun Li, Xuesong Chen, Yinrui Yao, Shuchang Liu, | (参考訳) 近年、AIGC(AI-Generated Content)は、様々な産業における音楽、画像、その他の芸術表現の創出を促進する、急速な進歩を目撃している。
しかし、一般的なマルチモーダル音楽生成モデルに関する研究はほとんどない。
このギャップを埋めるために,マルチモーダル音楽生成フレームワークであるMozart's Touchを提案する。
画像やビデオ、テキストなど、モダリティを越えた入力と整列した音楽を生成することができる。
MozartのTouchは、マルチモーダルキャプションモジュール、LLM (Large Language Model) Understanding & Bridging Module、Music Generation Moduleの3つの主要コンポーネントで構成されている。
従来のアプローチとは異なり、MozartのTouchはトレーニングや微調整を必要とせず、透明で解釈可能なプロンプトを通じて効率と透明性を提供する。
また,モーダルの異なる記述テキスト間の異種表現問題を解くために,LLM-Bridge法を導入する。
本研究は,提案モデルに基づく客観的および主観的な評価を行い,本モデルが現在の最先端モデルの性能を上回っていることを示す。
https://github.com/WangTooNaive/MozartsTouch
In recent years, AI-Generated Content (AIGC) has witnessed rapid advancements, facilitating the generation of music, images, and other forms of artistic expression across various industries. However, researches on general multi-modal music generation model remain scarce. To fill this gap, we propose a multi-modal music generation framework Mozart's Touch. It could generate aligned music with the cross-modality inputs, such as images, videos and text. Mozart's Touch is composed of three main components: Multi-modal Captioning Module, Large Language Model (LLM) Understanding & Bridging Module, and Music Generation Module. Unlike traditional approaches, Mozart's Touch requires no training or fine-tuning pre-trained models, offering efficiency and transparency through clear, interpretable prompts. We also introduce "LLM-Bridge" method to resolve the heterogeneous representation problems between descriptive texts of different modalities. We conduct a series of objective and subjective evaluations on the proposed model, and results indicate that our model surpasses the performance of current state-of-the-art models. Our codes and examples is availble at: https://github.com/WangTooNaive/MozartsTouch | 翻訳日:2024-05-07 18:20:16 公開日:2024-05-05 |
# Flashアテンションは安定しているか?
Is Flash Attention Stable? ( http://arxiv.org/abs/2405.02803v1 ) ライセンス: Link先を確認 | Alicia Golden, Samuel Hsia, Fei Sun, Bilge Acun, Basil Hosmer, Yejin Lee, Zachary DeVito, Jeff Johnson, Gu-Yeon Wei, David Brooks, Carole-Jean Wu, | (参考訳) 大規模な機械学習モデルのトレーニングは、今日のワークロードのサイズと複雑さの両方を考慮すると、異なるシステムの課題を生じさせる。
近年、最先端のジェネレーティブAIモデルをトレーニングする多くの組織は、トレーニング中に不安定なケースを報告し、しばしば損失スパイクの形式を取っている。
このトレーニングの不安定性の潜在的な原因として、数値的な偏差が現れたが、トレーニングのコストのかかる性質を考えると、これは特に困難である。
本研究では,数値偏差の影響を理解するための原理的アプローチを開発し,下流効果の定量化が難しい状況下で観測を行うためのプロキシを構築した。
ケーススタディでは、広く採用されているFlash Attentionの最適化を分析するために、このフレームワークを適用します。
Flash Attentionは、孤立したフォワードパスで測定された場合、BF16のBaseline Attentionと比べて、およそ1桁の数値偏差があることがわかった。
次に、Wasserstein Distanceに基づくデータ駆動分析を用いて、この数値偏差がトレーニング中にモデルウェイトに与える影響について上限を与える。
Training large-scale machine learning models poses distinct system challenges, given both the size and complexity of today's workloads. Recently, many organizations training state-of-the-art Generative AI models have reported cases of instability during training, often taking the form of loss spikes. Numeric deviation has emerged as a potential cause of this training instability, although quantifying this is especially challenging given the costly nature of training runs. In this work, we develop a principled approach to understanding the effects of numeric deviation, and construct proxies to put observations into context when downstream effects are difficult to quantify. As a case study, we apply this framework to analyze the widely-adopted Flash Attention optimization. We find that Flash Attention sees roughly an order of magnitude more numeric deviation as compared to Baseline Attention at BF16 when measured during an isolated forward pass. We then use a data-driven analysis based on the Wasserstein Distance to provide upper bounds on how this numeric deviation impacts model weights during training, finding that the numerical deviation present in Flash Attention is 2-5 times less significant than low-precision training. | 翻訳日:2024-05-07 18:20:16 公開日:2024-05-05 |
# Verlet Flows: フローベース生成モデルのためのexact-likelihoodインテグレータ
Verlet Flows: Exact-Likelihood Integrators for Flow-Based Generative Models ( http://arxiv.org/abs/2405.02805v1 ) ライセンス: Link先を確認 | Ezra Erives, Bowen Jing, Tommi Jaakkola, | (参考訳) 連続正規化フロー(CNF)を伴う計算モデルの近似は、正確な確率を必要とするボルツマン分布の重要サンプリングにこれらのモデルを使用することを妨げる。
本研究では,ハミルトン力学のシンプレクティック積分器に着想を得た拡張状態空間上のCNFのクラスであるVerlet Flowを提案する。
慎重に構築されたテイラー・バーレット積分器で使用する場合、バーレットフローは、最小の表現性制約を課しながら、非連続的な設定から結合フローアーキテクチャを一般化する正確な類似した生成モデルを提供する。
おもちゃの密度に関する実験では、一般的なハッチンソントレース推定器のばらつきは重要サンプリングには適さないが、一方、Verletフローは完全オートグレートトレース計算に比較可能であり、かなり高速である。
Approximations in computing model likelihoods with continuous normalizing flows (CNFs) hinder the use of these models for importance sampling of Boltzmann distributions, where exact likelihoods are required. In this work, we present Verlet flows, a class of CNFs on an augmented state-space inspired by symplectic integrators from Hamiltonian dynamics. When used with carefully constructed Taylor-Verlet integrators, Verlet flows provide exact-likelihood generative models which generalize coupled flow architectures from a non-continuous setting while imposing minimal expressivity constraints. On experiments over toy densities, we demonstrate that the variance of the commonly used Hutchinson trace estimator is unsuitable for importance sampling, whereas Verlet flows perform comparably to full autograd trace computations while being significantly faster. | 翻訳日:2024-05-07 18:20:16 公開日:2024-05-05 |
# 畳み込みニューラルネットワークに基づく構造力学の運動解析
Kinematic analysis of structural mechanics based on convolutional neural network ( http://arxiv.org/abs/2405.02807v1 ) ライセンス: Link先を確認 | Leye Zhang, Xiangxiang Tian, Hongjun Zhang, | (参考訳) 畳み込みニューラルネットワークを用いた平面バー構造の運動解析の試み
3dsMaxアニメーションソフトウェアとOpenCVモジュールを通じて、幾何学的に安定なシステムと幾何学的に不安定なシステムの自己構築画像データセットを作成する。
我々はTensorFlowとKerasのディープラーニングプラットフォームフレームワークに基づいて畳み込みニューラルネットワークモデルを構築し、訓練する。
モデルは、トレーニングセット、検証セット、テストセットで100%精度を達成する。
追加のテストセットの精度は93.7%であり、畳み込みニューラルネットワークが構造力学のキネマティック解析に関する関連する知識を学習し、習得できることを示している。
将来、モデルの一般化能力は、複雑な構造に対する人間の専門家を上回る可能性があるデータセットの多様性によって改善される。
畳み込みニューラルネットワークは、構造力学の運動学的解析の分野で一定の実用的価値を持っている。
可視化技術を用いて、畳み込みニューラルネットワークがどのように構造的特徴を学び、認識するかを明らかにする。
特徴抽出と微調整のために事前学習したVGG16モデルを用いて、一般化能力は自己構築モデルよりも劣っていることがわかった。
Attempt to use convolutional neural network to achieve kinematic analysis of plane bar structure. Through 3dsMax animation software and OpenCV module, self-build image dataset of geometrically stable system and geometrically unstable system. we construct and train convolutional neural network model based on the TensorFlow and Keras deep learning platform framework. The model achieves 100% accuracy on the training set, validation set, and test set. The accuracy on the additional test set is 93.7%, indicating that convolutional neural network can learn and master the relevant knowledge of kinematic analysis of structural mechanics. In the future, the generalization ability of the model can be improved through the diversity of dataset, which has the potential to surpass human experts for complex structures. Convolutional neural network has certain practical value in the field of kinematic analysis of structural mechanics. Using visualization technology, we reveal how convolutional neural network learns and recognizes structural features. Using pre-trained VGG16 model for feature extraction and fine-tuning, we found that the generalization ability is inferior to the self-built model. | 翻訳日:2024-05-07 18:10:30 公開日:2024-05-05 |
# 確率力学系に対する適応密度近似
Adaptive deep density approximation for stochastic dynamical systems ( http://arxiv.org/abs/2405.02810v1 ) ライセンス: Link先を確認 | Junjie He, Qifeng Liao, Xiaoliang Wan, | (参考訳) 本稿では,確率力学系に対する適応型ディープニューラルネットワーク近似について考察する。
確率力学系に付随するリウヴィル方程式に基づいて、状態変数の確率密度関数(PDF)を近似するために、新しい時間的KRnet(tKRnet)を提案する。
tKRnetは、リウヴィル方程式の解に対する明示的な密度モデルを与え、従来の格子法に基づく数値法の適用を制限する次元問題の呪いを軽減する。
tKRnetを効率的に訓練するために、各繰り返しで近似密度関数を用いてサンプルを反復的に生成する、対応する残留損失関数のコロケーションポイントを生成する適応手順を開発した。
時間分解技術は、長期統合を改善するためにも用いられる。
提案手法の理論的解析を行い,その性能を示す数値例を示した。
In this paper we consider adaptive deep neural network approximation for stochastic dynamical systems. Based on the Liouville equation associated with the stochastic dynamical systems, a new temporal KRnet (tKRnet) is proposed to approximate the probability density functions (PDFs) of the state variables. The tKRnet gives an explicit density model for the solution of the Liouville equation, which alleviates the curse of dimensionality issue that limits the application of traditional grid based numerical methods. To efficiently train the tKRnet, an adaptive procedure is developed to generate collocation points for the corresponding residual loss function, where samples are generated iteratively using the approximate density function at each iteration. A temporal decomposition technique is also employed to improve the long-time integration. Theoretical analysis of our proposed method is provided, and numerical examples are presented to demonstrate its performance. | 翻訳日:2024-05-07 18:10:30 公開日:2024-05-05 |
# PV変換器:スケーラブルな3次元物体検出のためのポイント・ツー・ボクセル変換器
PVTransformer: Point-to-Voxel Transformer for Scalable 3D Object Detection ( http://arxiv.org/abs/2405.02811v1 ) ライセンス: Link先を確認 | Zhaoqi Leng, Pei Sun, Tong He, Dragomir Anguelov, Mingxing Tan, | (参考訳) 点雲のための3Dオブジェクト検出器は、しばしば、スパースポイントをグリッドのようなボクセルや柱にエンコードするために、プールベースのPointNetに依存する。
本稿では,一般的なPointNet設計が3次元物体検出精度とスケーラビリティを制限した情報ボトルネックを導入することを確認した。
この制限に対処するため,変圧器を用いた3次元検出のためのポイント・ツー・ボクセルアーキテクチャであるPVTransformerを提案する。
私たちのキーとなるアイデアは、PointNetプーリング操作をアテンションモジュールに置き換えることです。
我々の設計では、スパース3D点の置換不変性を尊重し、プールベースのPointNetよりも表現力が高い。
実験の結果, PVTransformerは最新の3Dオブジェクト検出器と比較して, はるかに優れた性能を示した。
広く使われているWaymo Open Datasetでは、当社のPVTransformerが最先端の76.5 mAPH L2を達成し、SWFormerの先行技術である+1.7 mAPH L2を上回っている。
3D object detectors for point clouds often rely on a pooling-based PointNet to encode sparse points into grid-like voxels or pillars. In this paper, we identify that the common PointNet design introduces an information bottleneck that limits 3D object detection accuracy and scalability. To address this limitation, we propose PVTransformer: a transformer-based point-to-voxel architecture for 3D detection. Our key idea is to replace the PointNet pooling operation with an attention module, leading to a better point-to-voxel aggregation function. Our design respects the permutation invariance of sparse 3D points while being more expressive than the pooling-based PointNet. Experimental results show our PVTransformer achieves much better performance compared to the latest 3D object detectors. On the widely used Waymo Open Dataset, our PVTransformer achieves state-of-the-art 76.5 mAPH L2, outperforming the prior art of SWFormer by +1.7 mAPH L2. | 翻訳日:2024-05-07 18:10:30 公開日:2024-05-05 |
# ニューラルネットワークを用いた単一光子フォック状態トモグラフィ
Neural Network Enhanced Single-Photon Fock State Tomography ( http://arxiv.org/abs/2405.02812v1 ) ライセンス: Link先を確認 | Hsien-Yi Hsieh, Yi-Ru Chen, Jingyu Ning, Hsun-Chung Wu, Hua Li Chen, Zi-Hao Shi, Po-Han Wang, Ole Steuernagel, Chien-Ming Wu, Ray-Kuang Lee, | (参考訳) 自発的なパラメトリックダウン変換によって、1光子源が日常的に生成されるが、真空状態と複数の光子状態は避けられない。
機械学習では、ターゲットパラメータを直接推定することで、単一光子量子状態トモグラフィーの実験的実装を報告する。
HBT(Hanbury Brown and Twiss)測定とクリックしたイベントのみと比較して、我々のニューラルネットワークは、平衡ホモダインの検出器から可能な全ての光子数状態に対する光子数分布を特徴付けている。
ヒストグラムに基づくアーキテクチャを用いて、ウィグナーの準確率位相空間における負性を直接パラメータ推定する。
このような高速で頑健で正確な量子状態トモグラフィーは、単一光子フォック状態やその他の非ガウス的量子状態を持つアプリケーションにとって重要な診断ツールボックスを提供する。
Even though heralded single-photon sources have been generated routinely through the spontaneous parametric down conversion, vacuum and multiple photon states are unavoidably involved. With machine-learning, we report the experimental implementation of single-photon quantum state tomography by directly estimating target parameters. Compared to the Hanbury Brown and Twiss (HBT) measurements only with clicked events recorded, our neural network enhanced quantum state tomography characterizes the photon number distribution for all possible photon number states from the balanced homodyne detectors. By using the histogram-based architecture, a direct parameter estimation on the negativity in Wigner's quasi-probability phase space is demonstrated. Such a fast, robust, and precise quantum state tomography provides us a crucial diagnostic toolbox for the applications with single-photon Fock states and other non-Gaussisan quantum states. | 翻訳日:2024-05-07 18:10:30 公開日:2024-05-05 |
# Negative Prompt: 負の感情刺激による大規模言語モデル強化のための心理学の活用
NegativePrompt: Leveraging Psychology for Large Language Models Enhancement via Negative Emotional Stimuli ( http://arxiv.org/abs/2405.02814v1 ) ライセンス: Link先を確認 | Xu Wang, Cheng Li, Yi Chang, Jindong Wang, Yuan Wu, | (参考訳) 大規模言語モデル(LLM)は、従来の計算タスクから高度な人工知能(AI)アプリケーションまで、幅広いアプリケーションに不可欠なものとなっている。
この普及により、社会科学を含む様々な分野のLSMの研究が盛んになった。
特に、LLMはポジティブな感情刺激によってさらに発展できる感情知能を持っていることが研究によって明らかにされている。
この発見は興味深い疑問を提起する: 否定的な感情はLLMにも影響し、パフォーマンスを向上する可能性があるか?
この問いに応えて,心理学的原則を基盤とした新たなアプローチである否定的刺激(Negative Prompt)を紹介する。
我々は,Flan-T5-Large,Vicuna,Llama 2,ChatGPT,GPT-4の5つのLLMを,45のタスクで厳密に評価した。
NegativePromptは、命令誘導タスクの12.89%とBIG-Benchタスクの46.25%の相対的な改善により、LLMの性能を著しく向上させる。
さらに,NegativePromptの影響のメカニズムを解明するための注意可視化実験を行った。
本研究は,LLMの理解と感情相互作用に大きく貢献し,感情駆動型手法としてのNegativePromptの有効性を実証し,現実の応用におけるLLMの強化に向けた新たな洞察を提供する。
コードはhttps://github.com/wangxu0820/NegativePrompt.comで公開されている。
Large Language Models (LLMs) have become integral to a wide spectrum of applications, ranging from traditional computing tasks to advanced artificial intelligence (AI) applications. This widespread adoption has spurred extensive research into LLMs across various disciplines, including the social sciences. Notably, studies have revealed that LLMs possess emotional intelligence, which can be further developed through positive emotional stimuli. This discovery raises an intriguing question: can negative emotions similarly influence LLMs, potentially enhancing their performance? In response to this question, we introduce NegativePrompt, a novel approach underpinned by psychological principles, involving ten specifically designed negative emotional stimuli. We embark on rigorous experimental evaluations of five LLMs including Flan-T5-Large, Vicuna, Llama 2, ChatGPT, and GPT-4, across a set of 45 tasks. The results are revealing: NegativePrompt markedly enhances the performance of LLMs, evidenced by relative improvements of 12.89% in Instruction Induction tasks and 46.25% in BIG-Bench tasks. Moreover, we conduct attention visualization experiments to decipher the underlying mechanisms of NegativePrompt's influence. Our research contributes significantly to the understanding of LLMs and emotion interaction, demonstrating the practical efficacy of NegativePrompt as an emotion-driven method and offering novel insights for the enhancement of LLMs in real-world applications. The code is available at https://github.com/wangxu0820/NegativePrompt. | 翻訳日:2024-05-07 18:10:30 公開日:2024-05-05 |
# 新型コロナウイルスの解釈可能な予後の地域別リスク定量化
Region-specific Risk Quantification for Interpretable Prognosis of COVID-19 ( http://arxiv.org/abs/2405.02815v1 ) ライセンス: Link先を確認 | Zhusi Zhong, Jie Li, Zhuoqi Ma, Scott Collins, Harrison Bai, Paul Zhang, Terrance Healey, Xinbo Gao, Michael K. Atalay, Zhicheng Jiao, | (参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、世界的な公衆衛生を悪化させ、正確な診断と疾病対策の介入を必要とし、死亡率を下げている。
胸部X線画像(CXR)を用いて、新型コロナウイルスの予後に対する理解と信頼の向上を目的とした、解釈可能な深層生存予測モデルを提案する。
大規模な事前訓練画像エンコーダ,リスク特異的なGrad-CAM,および解剖学的領域検出技術を統合することにより,本研究は,稀ながら致命的な異常領域に着目しながら,本態性疾患の特徴を効果的に捉えた地域解釈可能な結果を生み出す。
本モデルの予測結果は,リスク領域のローカライゼーションを通じて明瞭度と透明性を向上し,臨床医が予後の理解を深めながら,新型コロナウイルスの診断に関する情報的決定を下すことを可能にする。
提案手法をマルチセンターサバイバルデータセット上で評価し,その有効性を定量的および質的評価を用いて評価し,優れたCインデックス(0.764,0.727)と時間依存型AUC(0.799,0.691)を達成した。
これらの結果から,本モデルがリスク予測における従来の生存分析手法を超越し,臨床意思決定の解釈可能性の向上とAIシステムの信頼性向上を図っていることが示唆された。
The COVID-19 pandemic has strained global public health, necessitating accurate diagnosis and intervention to control disease spread and reduce mortality rates. This paper introduces an interpretable deep survival prediction model designed specifically for improved understanding and trust in COVID-19 prognosis using chest X-ray (CXR) images. By integrating a large-scale pretrained image encoder, Risk-specific Grad-CAM, and anatomical region detection techniques, our approach produces regional interpretable outcomes that effectively capture essential disease features while focusing on rare but critical abnormal regions. Our model's predictive results provide enhanced clarity and transparency through risk area localization, enabling clinicians to make informed decisions regarding COVID-19 diagnosis with better understanding of prognostic insights. We evaluate the proposed method on a multi-center survival dataset and demonstrate its effectiveness via quantitative and qualitative assessments, achieving superior C-indexes (0.764 and 0.727) and time-dependent AUCs (0.799 and 0.691). These results suggest that our explainable deep survival prediction model surpasses traditional survival analysis methods in risk prediction, improving interpretability for clinical decision making and enhancing AI system trustworthiness. | 翻訳日:2024-05-07 18:10:30 公開日:2024-05-05 |
# Stochastic RAG: 実用性最大化によるエンドツーエンド検索生成
Stochastic RAG: End-to-End Retrieval-Augmented Generation through Expected Utility Maximization ( http://arxiv.org/abs/2405.02816v1 ) ライセンス: Link先を確認 | Hamed Zamani, Michael Bendersky, | (参考訳) 本稿では,検索拡張生成モデル(RAG)のエンドツーエンド最適化のための新しいアプローチであるStochastic RAGを紹介する。
確率RAGは、RAGの検索プロセスを置換プロセスなしで確率的なサンプリングとしてキャストする。
この定式化により、Gumbel-top-k をストレートスルーで使用し、置換せずにサンプリングに微分可能な近似を提供し、RAG の効率的なエンドツーエンド最適化を可能にする。
オープンドメイン質問応答から事実検証,関係抽出のためのスロットフィリング,対話システムなど,幅広いタスクに関する7つの多様なデータセットについて広範な実験を行った。
この最適化手法を最近のRAGモデルに適用することにより、7つのデータセットのうち6つについて最先端の結果を前進させる。
This paper introduces Stochastic RAG--a novel approach for end-to-end optimization of retrieval-augmented generation (RAG) models that relaxes the simplifying assumptions of marginalization and document independence, made in most prior work. Stochastic RAG casts the retrieval process in RAG as a stochastic sampling without replacement process. Through this formulation, we employ straight-through Gumbel-top-k that provides a differentiable approximation for sampling without replacement and enables effective end-to-end optimization for RAG. We conduct extensive experiments on seven diverse datasets on a wide range of tasks, from open-domain question answering to fact verification to slot-filling for relation extraction and to dialogue systems. By applying this optimization method to a recent and effective RAG model, we advance state-of-the-art results on six out of seven datasets. | 翻訳日:2024-05-07 18:10:30 公開日:2024-05-05 |
# HuixiangDou-CR: グループチャットにおける参照解決
HuixiangDou-CR: Coreference Resolution in Group Chats ( http://arxiv.org/abs/2405.02817v1 ) ライセンス: Link先を確認 | Huanjun Kong, | (参考訳) グループチャットにおけるプロノミナル参照の排除法
本研究では,58kのチャットデータを前処理し,手動で2.3k質問を行った。
このアノテーションの信頼性はスケーリング法によって確認された。
その後、0.5Bから32Bのパラメータを含むQwenモデルの微調整を行った。
最適なバージョンでは29.07点のF1スコアが向上した。
これは、下流自然言語処理(NLP)タスクのための微調整大型言語モデル(LLM)の実現可能性を確認する。
私たちの貢献は次のとおりです。
1) ローランド適応(LoRA)重みのセットとともに、アルパカ形式でのSFTトレーニングデータの作成
2)スケーリング法則を利用した高品質なデータ取得手法の開発。
スクリプト、alpacaフォーマット、実験トラックを備えた生データはGithub https://github.com/InternLM/HuixiangDou/tree/main/web/tools, HuggingFace https://huggingface.co/tpoisonooo and WandB https://wandb.ai/tpoisonooo/huixiangdou-cr/table?
nw=nwusertpoisonooo。
関連するデータのプライバシーは、ユーザによって承認されている。
How to eliminate pronominal reference in group chats? In this work, we have preprocessed 58k authentic chat data and manually annotated 2.3k questions. The reliability of this annotation was confirmed by the scaling law. After this, we conducted fine-tuning on Qwen models, ranging from 0.5B to 32B parameters. The optimal version improved 29.07 in F1 score. This confirms the viability of fine-tuning Large Language Model (LLM) for downstream Natural Language Processing (NLP) tasks. Our contributions are: 1) Created Supervised Fine-Tuning (SFT) training data in alpaca format, along with a set of Low-Rank Adaptation (LoRA) weights, and 2) Developed a method for acquiring high-quality data leveraging scaling law principle. The script, raw data with alpaca format and experiments track are open-sourced on Github https://github.com/InternLM/HuixiangDou/tree/main/web/tools, HuggingFace https://huggingface.co/tpoisonooo and WandB https://wandb.ai/tpoisonooo/huixiangdou-cr/table?nw=nwusertpoisonooo . The privacy of the data involved has been authorized by users. | 翻訳日:2024-05-07 18:10:30 公開日:2024-05-05 |
# 周波数適応音場予測を用いた音場ナビゲーションのためのSim2Real Transfer
Sim2Real Transfer for Audio-Visual Navigation with Frequency-Adaptive Acoustic Field Prediction ( http://arxiv.org/abs/2405.02821v1 ) ライセンス: Link先を確認 | Changan Chen, Jordi Ramos, Anshul Tomar, Kristen Grauman, | (参考訳) Sim2realトランスファーは最近、シミュレーションのエンドツーエンドにおけるロボットタスクの学習の成功により注目を集めている。
視覚ベースのナビゲーションポリシーの転送には多くの進歩があったが、既存の音声視覚ナビゲーションのsim2real戦略は、音響的ギャップを計測することなく、経験的にデータ拡張を行う。
音は、より広い周波数にまたがる光とは異なるため、sim2realには別の解を必要とする。
本稿では,音場予測 (AFP) とウェイポイントナビゲーションに切り離して, 音声視覚ナビゲーションのためのsim2real の最初の治療法を提案する。
SoundSpacesシミュレータの設計選択を最初に検証し、Continuous AudioGoalナビゲーションベンチマークの改善を示す。
次に、特定の周波数サブバンドのみを入力とするAFPモデルをトレーニングすることにより、実世界のデータを収集し、シミュレーションと実世界のスペクトル差を測定する。
さらに、測定されたスペクトル差と受信した音声のエネルギー分布の両方に基づいて、予測のための最良の周波数帯域をインテリジェントに選択し、実データの性能を向上させる周波数適応戦略を提案する。
最後に、実際のロボットプラットフォームを構築し、転送されたポリシーが、音を鳴らすオブジェクトにうまくナビゲートできることを示します。
この研究は、シミュレーションから完全に見たり、聴いたり、行動したりできるインテリジェントなエージェントを構築する可能性を示し、それらを現実世界に転送する。
Sim2real transfer has received increasing attention lately due to the success of learning robotic tasks in simulation end-to-end. While there has been a lot of progress in transferring vision-based navigation policies, the existing sim2real strategy for audio-visual navigation performs data augmentation empirically without measuring the acoustic gap. The sound differs from light in that it spans across much wider frequencies and thus requires a different solution for sim2real. We propose the first treatment of sim2real for audio-visual navigation by disentangling it into acoustic field prediction (AFP) and waypoint navigation. We first validate our design choice in the SoundSpaces simulator and show improvement on the Continuous AudioGoal navigation benchmark. We then collect real-world data to measure the spectral difference between the simulation and the real world by training AFP models that only take a specific frequency subband as input. We further propose a frequency-adaptive strategy that intelligently selects the best frequency band for prediction based on both the measured spectral difference and the energy distribution of the received audio, which improves the performance on the real data. Lastly, we build a real robot platform and show that the transferred policy can successfully navigate to sounding objects. This work demonstrates the potential of building intelligent agents that can see, hear, and act entirely from simulation, and transferring them to the real world. | 翻訳日:2024-05-07 18:10:30 公開日:2024-05-05 |
# カモフラージュ物体検出のための適応誘導学習
Adaptive Guidance Learning for Camouflaged Object Detection ( http://arxiv.org/abs/2405.02824v1 ) ライセンス: Link先を確認 | Zhennan Chen, Xuying Zhang, Tian-Zhu Xiang, Ying Tai, | (参考訳) カモフラージュされた物体検出(COD)は、周囲に視覚的に埋め込まれた物体を分割することを目的としている。
この問題に対処するために、ほとんどの手法は、背景から偽装された物体をよりよく検出するための特徴学習を導くために追加情報(境界、テクスチャ、周波数ヒントなど)を組み込むことが多い。
進歩はあったものの、これらの手法は基本的に特定の補助的手段に個別に適合しており、適応性に欠け、高いセグメンテーション性能が得られない。
そこで本論文では,CNNモデルに異なる追加手法を探索し,適応させることにより,正確なキャモフラーグ付き特徴学習を導出するための一貫したエンド・ツー・エンド学習モデルである「textit{AGLNet}」という適応型ガイダンス学習ネットワークを提案する。
具体的には、まず、簡単な追加情報生成(AIG)モジュールを設計し、効果的なカモフラージュ特徴の探索に適応できる追加のカモフラーグオブジェクトキューを学習する。
次に,多段階融合方式でカモフラージュした特徴学習を誘導するために,追加の手がかりと画像特徴を深く統合する階層的特徴結合 (HFC) モジュールを提案する。
広範に使用されている3つのCODベンチマークデータセットに対する大規模な実験により、提案手法は異なる追加手法で大幅な性能向上を実現し、最近の20の最先端手法を大きなマージンで上回る結果となった。
私たちのコードは、次のように公開されます。
Camouflaged object detection (COD) aims to segment objects visually embedded in their surroundings, which is a very challenging task due to the high similarity between the objects and the background. To address it, most methods often incorporate additional information (e.g., boundary, texture, and frequency clues) to guide feature learning for better detecting camouflaged objects from the background. Although progress has been made, these methods are basically individually tailored to specific auxiliary cues, thus lacking adaptability and not consistently achieving high segmentation performance. To this end, this paper proposes an adaptive guidance learning network, dubbed \textit{AGLNet}, which is a unified end-to-end learnable model for exploring and adapting different additional cues in CNN models to guide accurate camouflaged feature learning. Specifically, we first design a straightforward additional information generation (AIG) module to learn additional camouflaged object cues, which can be adapted for the exploration of effective camouflaged features. Then we present a hierarchical feature combination (HFC) module to deeply integrate additional cues and image features to guide camouflaged feature learning in a multi-level fusion manner.Followed by a recalibration decoder (RD), different features are further aggregated and refined for accurate object prediction. Extensive experiments on three widely used COD benchmark datasets demonstrate that the proposed method achieves significant performance improvements under different additional cues, and outperforms the recent 20 state-of-the-art methods by a large margin. Our code will be made publicly available at: \textcolor{blue}{{https://github.com/ZNan-Chen/AGLNet}}. | 翻訳日:2024-05-07 18:10:30 公開日:2024-05-05 |
# Nip in the Bud:サイバー脅威情報レポートによる爆発後攻撃の予測と解釈
Nip in the Bud: Forecasting and Interpreting Post-exploitation Attacks in Real-time through Cyber Threat Intelligence Reports ( http://arxiv.org/abs/2405.02826v1 ) ライセンス: Link先を確認 | Tiantian Zhu, Jie Ying, Tieming Chen, Chunlin Xiong, Wenrui Cheng, Qixuan Yuan, Aohan Zheng, Mingqi Lv, Yan Chen, | (参考訳) Advanced Persistent Threat (APT) 攻撃は世界中で大きな被害をもたらした。
様々なエンドポイント検出および応答(EDR)システムは、潜在的な脅威に対抗するために企業によって展開される。
しかし、EDRは偽陽性に悩まされる。
正常な操作に影響を与えないように、アナリストは対策を講じる前に検出結果を調査・フィルタリングする必要がある。
そこで我々は,リアルタイム攻撃予測・解釈システムであるEndpoint Forecasting and Interpreting (EFI)を提案する。
まず、サイバー脅威インテリジェンス(CTI)レポートを使用して攻撃シーングラフ(ASG)を抽出し、低レベルのシステムログにマッピングして攻撃サンプルを強化する。
次に,EDRが提供する攻撃予測グラフ(APG)と組み合わせて,攻撃予測グラフ(AFG)を生成し,次の動きを予測する。
最後に,アタックテンプレートグラフ(ATG)とグラフアライメントアルゴリズムを用いて,EDRの戦略を自動ディスパッチしてシステム強化を行う手法を提案する。
EFIは、既存のEDR偽陽性の影響を避けることができ、通常の操作に影響を与えることなく、システムの攻撃面を低減することができる。
合計3,484件のCTIレポートを収集し,1,429件のASG,8000文のラベル,10,451件のタグ,256件のATGを作成した。
DARPA Engagementと大規模CTIデータセットによる実験結果から、EFIによって予測されるAFGと実際の攻撃グラフとのアライメントスコアは0.8を超え、EFIの予測と解釈精度は91.8%に達する。
Advanced Persistent Threat (APT) attacks have caused significant damage worldwide. Various Endpoint Detection and Response (EDR) systems are deployed by enterprises to fight against potential threats. However, EDR suffers from high false positives. In order not to affect normal operations, analysts need to investigate and filter detection results before taking countermeasures, in which heavy manual labor and alarm fatigue cause analysts miss optimal response time, thereby leading to information leakage and destruction. Therefore, we propose Endpoint Forecasting and Interpreting (EFI), a real-time attack forecast and interpretation system, which can automatically predict next move during post-exploitation and explain it in technique-level, then dispatch strategies to EDR for advance reinforcement. First, we use Cyber Threat Intelligence (CTI) reports to extract the attack scene graph (ASG) that can be mapped to low-level system logs to strengthen attack samples. Second, we build a serialized graph forecast model, which is combined with the attack provenance graph (APG) provided by EDR to generate an attack forecast graph (AFG) to predict the next move. Finally, we utilize the attack template graph (ATG) and graph alignment plus algorithm for technique-level interpretation to automatically dispatch strategies for EDR to reinforce system in advance. EFI can avoid the impact of existing EDR false positives, and can reduce the attack surface of system without affecting the normal operations. We collect a total of 3,484 CTI reports, generate 1,429 ASGs, label 8,000 sentences, tag 10,451 entities, and construct 256 ATGs. Experimental results on both DARPA Engagement and large scale CTI dataset show that the alignment score between the AFG predicted by EFI and the real attack graph is able to exceed 0.8, the forecast and interpretation precision of EFI can reach 91.8%. | 翻訳日:2024-05-07 18:10:30 公開日:2024-05-05 |
# 大規模言語のコードモデルにおけるトロイの木馬 : トリガーに基づく分類学による批判的レビュー
Trojans in Large Language Models of Code: A Critical Review through a Trigger-Based Taxonomy ( http://arxiv.org/abs/2405.02828v1 ) ライセンス: Link先を確認 | Aftab Hussain, Md Rafiqul Islam Rabin, Toufique Ahmed, Bowen Xu, Premkumar Devanbu, Mohammad Amin Alipour, | (参考訳) 大きな言語モデル(LLM)は、ソフトウェア開発に多くのエキサイティングな新機能を提供します。
しかし、これらのモデルの不透明な性質は、推論や検査を困難にしている。
敵は、被害者の組織におけるソフトウェア開発プロセスを破壊するために、妥協したモデルを訓練し、デプロイすることができる。
この研究は、コードの大きな言語モデルに対する現在最先端のトロイの木馬攻撃の概要を示し、トリガー(トロイの木馬の主要な設計点)に焦点を当て、新しい統一トリガー分類フレームワークの助けを借りた。
また、コードLLMにおけるトロイの木馬の領域の基本概念を一様に定義することを目的とする。
最後に、コードモデルがトリガー設計でどのように学習するかについての知見を描きます。
Large language models (LLMs) have provided a lot of exciting new capabilities in software development. However, the opaque nature of these models makes them difficult to reason about and inspect. Their opacity gives rise to potential security risks, as adversaries can train and deploy compromised models to disrupt the software development process in the victims' organization. This work presents an overview of the current state-of-the-art trojan attacks on large language models of code, with a focus on triggers -- the main design point of trojans -- with the aid of a novel unifying trigger taxonomy framework. We also aim to provide a uniform definition of the fundamental concepts in the area of trojans in Code LLMs. Finally, we draw implications of findings on how code models learn on trigger design. | 翻訳日:2024-05-07 18:10:30 公開日:2024-05-05 |
# 半分しか必要としない:部分的コンテンツによるデータ拡張
You Only Need Half: Boosting Data Augmentation by Using Partial Content ( http://arxiv.org/abs/2405.02830v1 ) ライセンス: Link先を確認 | Juntao Hu, Yuan Wu, | (参考訳) 本稿では,拡張プロセスの簡略化を目的とした,YONA (You Only Need hAlf) と呼ばれる新しいデータ拡張手法を提案する。
ヨナは画像を2分し、半分をノイズで置き換え、残りの半分にデータ拡張技術を適用する。
この方法では、元の画像の冗長な情報を低減し、ニューラルネットワークが不完全なビューからオブジェクトを認識することを奨励し、ニューラルネットワークの堅牢性を大幅に向上する。
YONAはパラメータフリーで単純で多様なデータ拡張戦略を強化し、計算コストを増すことなくニューラルネットワークの堅牢性を増強する。
ヨナの有効性を示すため、広範囲な実験が行われた。
これらの実験により、YONAは多様なデータ拡張方法やニューラルネットワークアーキテクチャとの互換性を確認し、CIFAR分類タスクを大幅に改善した。
さらに、YONAは敵攻撃に対するニューラルネットワークのレジリエンスを著しく向上させる。
YONAの変種を探索するさらなる実験は、画像の半分をマスクすることでパフォーマンスが最適化されることを示した。
コードはhttps://github.com/HansMoe/YONAで公開されている。
We propose a novel data augmentation method termed You Only Need hAlf (YONA), which simplifies the augmentation process. YONA bisects an image, substitutes one half with noise, and applies data augmentation techniques to the remaining half. This method reduces the redundant information in the original image, encourages neural networks to recognize objects from incomplete views, and significantly enhances neural networks' robustness. YONA is distinguished by its properties of parameter-free, straightforward application, enhancing various existing data augmentation strategies, and thereby bolstering neural networks' robustness without additional computational cost. To demonstrate YONA's efficacy, extensive experiments were carried out. These experiments confirm YONA's compatibility with diverse data augmentation methods and neural network architectures, yielding substantial improvements in CIFAR classification tasks, sometimes outperforming conventional image-level data augmentation methods. Furthermore, YONA markedly increases the resilience of neural networks to adversarial attacks. Additional experiments exploring YONA's variants conclusively show that masking half of an image optimizes performance. The code is available at https://github.com/HansMoe/YONA. | 翻訳日:2024-05-07 18:10:30 公開日:2024-05-05 |
# 高速1段階非教師付きドメイン適応型人物探索
Fast One-Stage Unsupervised Domain Adaptive Person Search ( http://arxiv.org/abs/2405.02832v1 ) ライセンス: Link先を確認 | Tianxiang Cui, Huibing Wang, Jinjia Peng, Ruoxi Deng, Xianping Fu, Yang Wang, | (参考訳) 教師なし人物探索は,未ラベル領域の予期せぬ変化のために,注釈のないシーンイメージのギャラリーセットから特定の対象人物をローカライズすることを目的としている。
しかし、既存のほとんどのメソッドは、反復モデルトレーニングにクラスタリングを使用しながら、ドメインのバリエーションに適応する多段階モデルの開発に特化しています。
そこで本研究では,ドメイン適応とラベル適応を,反復的クラスタリングを伴わないエンドツーエンドで補完的に統合するFast One-stage Unsupervised person Search (FOUS)を提案する。
ドメインの不一致を最小限に抑えるため、FousはAttention-based Domain Alignment Module (ADAM)を導入した。これは、検出とReIDタスクの両方にさまざまなドメインを調整できるだけでなく、教師なし検出による低品質候補の悪影響を低減するための注意機構を構築することができる。
さらに、冗長反復クラスタリングモードを避けるため、FOUSでは、部分サンプルの冗長相関計算を最小化し、ノイズの多い粗いラベル群を効率的に割り当てるプロトタイプ誘導ラベル方式を採用している。
粗いラベル群は適応的選択戦略でラベルフレキシブルなトレーニングネットワークを介して継続的に洗練される。
適応されたドメインとラベルにより、FousはCUHK-SYSUとPRWの2つのベンチマークデータセット上で、最先端(SOTA)のパフォーマンスを達成することができる。
コードはhttps://github.com/whbdmu/FOUS.comで公開されている。
Unsupervised person search aims to localize a particular target person from a gallery set of scene images without annotations, which is extremely challenging due to the unexpected variations of the unlabeled domains. However, most existing methods dedicate to developing multi-stage models to adapt domain variations while using clustering for iterative model training, which inevitably increases model complexity. To address this issue, we propose a Fast One-stage Unsupervised person Search (FOUS) which complementary integrates domain adaptaion with label adaptaion within an end-to-end manner without iterative clustering. To minimize the domain discrepancy, FOUS introduced an Attention-based Domain Alignment Module (ADAM) which can not only align various domains for both detection and ReID tasks but also construct an attention mechanism to reduce the adverse impacts of low-quality candidates resulting from unsupervised detection. Moreover, to avoid the redundant iterative clustering mode, FOUS adopts a prototype-guided labeling method which minimizes redundant correlation computations for partial samples and assigns noisy coarse label groups efficiently. The coarse label groups will be continuously refined via label-flexible training network with an adaptive selection strategy. With the adapted domains and labels, FOUS can achieve the state-of-the-art (SOTA) performance on two benchmark datasets, CUHK-SYSU and PRW. The code is available at https://github.com/whbdmu/FOUS. | 翻訳日:2024-05-07 18:10:30 公開日:2024-05-05 |
# バイラテラル変調によるシーン適応型人物探索
Scene-Adaptive Person Search via Bilateral Modulations ( http://arxiv.org/abs/2405.02834v1 ) ライセンス: Link先を確認 | Yimin Jiang, Huibing Wang, Jinjia Peng, Xianping Fu, Yang Wang, | (参考訳) 人物探索は、特定の対象人物を、様々な場面のギャラリー画像からローカライズすることを目的としている。
歩行者の移動シーンが変化するにつれて、捕獲された人物画像は、人物の身元とは全く無関係な人物の特徴に、必然的に多くの背景ノイズや前景ノイズをもたらし、激しいパフォーマンス劣化をもたらす。
この問題に対処するために,シーンノイズを同時に除去し,さまざまなシーンに適応するための一貫した人物表現を維持するために,双方向変調を導入することで,シーン適応型人物探索(SEAS)モデルを提案する。
SEASにおいて、バックグラウンド変調ネットワーク(BMN)は、検出された境界ボックスから抽出された特徴を多粒度埋め込みに符号化するように設計されており、ノルム認識による複数のレベルからのバックグラウンドノイズの入力を低減する。
また、人物特徴に対する前景雑音の影響を軽減するため、シーン画像の特徴マップに基づいて埋め込まれた人物のクラッタ低減オフセットを計算するために、前景変調ネットワーク(FMN)を導入している。
背景と前景の両側変調をエンドツーエンドで行うことで、SEASはシーンノイズのない一貫した特徴表現を得る。
SEASは2つのベンチマークデータセット(CUHK-SYSUは97.1\% mAP、PRWは60.5\% mAP)で最先端(SOTA)のパフォーマンスを達成できる。
コードはhttps://github.com/whbdmu/SEASで公開されている。
Person search aims to localize specific a target person from a gallery set of images with various scenes. As the scene of moving pedestrian changes, the captured person image inevitably bring in lots of background noise and foreground noise on the person feature, which are completely unrelated to the person identity, leading to severe performance degeneration. To address this issue, we present a Scene-Adaptive Person Search (SEAS) model by introducing bilateral modulations to simultaneously eliminate scene noise and maintain a consistent person representation to adapt to various scenes. In SEAS, a Background Modulation Network (BMN) is designed to encode the feature extracted from the detected bounding box into a multi-granularity embedding, which reduces the input of background noise from multiple levels with norm-aware. Additionally, to mitigate the effect of foreground noise on the person feature, SEAS introduces a Foreground Modulation Network (FMN) to compute the clutter reduction offset for the person embedding based on the feature map of the scene image. By bilateral modulations on both background and foreground within an end-to-end manner, SEAS obtains consistent feature representations without scene noise. SEAS can achieve state-of-the-art (SOTA) performance on two benchmark datasets, CUHK-SYSU with 97.1\% mAP and PRW with 60.5\% mAP. The code is available at https://github.com/whbdmu/SEAS. | 翻訳日:2024-05-07 18:10:30 公開日:2024-05-05 |
# 滑らかなコンパクト多様体上のRKHS, Odzijewicz, Berezin, Fedosov型量子化
RKHS, Odzijewicz, Berezin and Fedosov-type quantizations on smooth compact manifolds ( http://arxiv.org/abs/2405.02838v1 ) ライセンス: Link先を確認 | Rukmini Dey, | (参考訳) 本稿では、コンパクトな滑らかな多様体上の Odzijewicz, Berezin, Fedosov型量子化を定義する。
方法は以下の通りである。
実次元 $n$ の滑らかな多様体を ${\mathbb C}P^n$ に埋め込む(そして、フェドソフ量子化の場合、任意の実 2n$ 次元シンプレクティック多様体に埋め込む)。
プルバックコヒーレント状態は通常通り定義される。
Odzijewicz型では、幾何量子化のヒルベルト空間のベレジン型量子化は、${\mathbb C}P^n$ の幾何量子化のヒルベルト空間の埋め込みによる引き戻しである。
ベレジンの場合、量子化された作用素は周囲空間から誘導される作用素である。
ここで示されるベレジン型量子化は、著者とKohinoor Ghosh(我々は完全に真の埋め込みを必要としていた)の以前の研究の一般化である。
フェドソフ型量子化は、埋め込みによって与えられる部分多様体に制限を加えて行われる。
In this article we define Odzijewicz, Berezin and Fedosov-type quantization on compact smooth manifolds. The method is as follows. We embed the smooth manifold of real dimension $n$ into ${\mathbb C}P^n$ (and in the Fedosov quantization case embed into any real $2n$ dimensional symplectic manifold). The pullback coherent states are defined in the usual way. In the Odzijewicz-type, Berezin-type quantization the Hilbert space of geometric quantization is the pullback by the embedding of the Hilbert space of geometric quantization of ${\mathbb C}P^n$. In the Berezin case, the operators that are quantized are those induced from the ambient space. The Berezin-type quantization exhibited here is a generalization of an earlier work of the author and Kohinoor Ghosh (where we had needed totally real embedding). The Fedosov-type quantization is carried out by restriction to the submanifold given by the embedding. | 翻訳日:2024-05-07 18:00:36 公開日:2024-05-05 |
# IceFormer: CPU上の長周期トランスフォーマーによる高速化推論
IceFormer: Accelerated Inference with Long-Sequence Transformers on CPUs ( http://arxiv.org/abs/2405.02842v1 ) ライセンス: Link先を確認 | Yuzhen Mao, Martin Ester, Ke Li, | (参考訳) 既存のTransformerベースのモデルの1つの制限は、自己アテンション操作が二次時間と空間の複雑さを示すため、入力として非常に長いシーケンスを処理できないことである。
この問題は、TransformerがCPUのみを装備したハードウェアプラットフォームにデプロイされると、特に深刻になる。
そこで本研究では,事前学習されたトランスフォーマーモデルと協調して動作し,再学習を必要とせずに自己認識を高速化する手法を提案する。
我々は,LLaMA 2 ベースの LLM などの長周期トランスフォーマーを様々なベンチマークで高速化し,98.6% から 99.6% の精度を維持しながら2.73x - 7.63x の高速化を実証する実験を行った。
コードはプロジェクトのWebサイト(https://yuzhenmao.github.io/IceFormer/)で公開されている。
One limitation of existing Transformer-based models is that they cannot handle very long sequences as input since their self-attention operations exhibit quadratic time and space complexity. This problem becomes especially acute when Transformers are deployed on hardware platforms equipped only with CPUs. To address this issue, we propose a novel method for accelerating self-attention at inference time that works with pretrained Transformer models out-of-the-box without requiring retraining. We experiment using our method to accelerate various long-sequence Transformers, including a leading LLaMA 2-based LLM, on various benchmarks and demonstrate a greater speedup of 2.73x - 7.63x while retaining 98.6% - 99.6% of the accuracy of the original pretrained models. The code is available on our project website at https://yuzhenmao.github.io/IceFormer/. | 翻訳日:2024-05-07 18:00:36 公開日:2024-05-05 |
# 残留条件の最適輸送-構造保存型未ペア画像復元を目指して-
Residual-Conditioned Optimal Transport: Towards Structure-preserving Unpaired and Paired Image Restoration ( http://arxiv.org/abs/2405.02843v1 ) ライセンス: Link先を確認 | Xiaole Tang, Xin Hu, Xiang Gu, Jian Sun, | (参考訳) 深層学習に基づく画像復元手法は有望な性能を達成した。
しかし、原像の構造を忠実に保存する方法はいまだに困難である。
この課題に対処するために, 画像復元を未ペアとペアの双方で最適輸送(OT)問題としてモデル化し, 輸送コストと輸送マップの双方に対して, ユニークな劣化専用キューとして, 輸送残余を統合したResidual-Conditioned Optimal Transport (RCOT)アプローチを提案する。
具体的には,まず,残余の劣化特異的情報を輸送コストに組み込むことで,フーリエ残余誘導型OT目標を定式化する。
OT の2つの形式に基づいて,トランスポートマップをベースモデルと精製プロセスからなる2パスRCOTマップとして設計し,トランスポート残差をベースモデルによって第1パスで計算し,第2パス復元条件に分解特異的な埋め込みとして符号化する。
二重性により、RCOT問題は最小限の最適化問題に変換され、ニューラルネットワークを敵対的に訓練することで解決される。
複数の修復作業における広範囲な実験は、歪み対策と知覚品質の両方の観点から、我々のアプローチの有効性を示している。
特にRCOTは、最先端の手法と比較して、より忠実な構造的詳細で画像を復元する。
Deep learning-based image restoration methods have achieved promising performance. However, how to faithfully preserve the structure of the original image remains challenging. To address this challenge, we propose a novel Residual-Conditioned Optimal Transport (RCOT) approach, which models the image restoration as an optimal transport (OT) problem for both unpaired and paired settings, integrating the transport residual as a unique degradation-specific cue for both the transport cost and the transport map. Specifically, we first formalize a Fourier residual-guided OT objective by incorporating the degradation-specific information of the residual into the transport cost. Based on the dual form of the OT formulation, we design the transport map as a two-pass RCOT map that comprises a base model and a refinement process, in which the transport residual is computed by the base model in the first pass and then encoded as a degradation-specific embedding to condition the second-pass restoration. By duality, the RCOT problem is transformed into a minimax optimization problem, which can be solved by adversarially training neural networks. Extensive experiments on multiple restoration tasks show the effectiveness of our approach in terms of both distortion measures and perceptual quality. Particularly, RCOT restores images with more faithful structural details compared to state-of-the-art methods. | 翻訳日:2024-05-07 18:00:36 公開日:2024-05-05 |
# SMCD:Mamba-based Diffusionによる高現実性モーションスタイルトランスファー
SMCD: High Realism Motion Style Transfer via Mamba-based Diffusion ( http://arxiv.org/abs/2405.02844v1 ) ライセンス: Link先を確認 | Ziyun Qian, Zeyu Xiao, Zhenyi Wu, Dingkang Yang, Mingcheng Li, Shunli Wang, Shuaibing Wang, Dongliang Kou, Lihua Zhang, | (参考訳) モーションスタイル転送はマルチメディアアプリケーションにおいて重要な研究方向である。
これは、仮想デジタル人間に対して同じ動きの異なるスタイルを迅速に切り替えることを可能にし、それによって運動の多様性とリアリズムを大幅に増大させる。
映画、ゲーム、メタバースといったマルチメディアのシナリオで広く使われている。
しかし、この分野での現在の研究のほとんどは不安定性や収束性の問題に繋がるGANを採用しており、最終的な動き列はやや混乱しており、非常に現実的で自然なスタイルを反映できない。
これらの問題に対処するため,我々はスタイル・モーションを条件として検討し,スタイル・モーション・コンディション・ディフュージョン(SMCD)フレームワークを初めて提案する。
さらに,より長い動き列を扱うための動作スタイル・マンバ (MSM) モジュールを導入し,動作スタイルの移動場に初めてマンバモデルを適用した。
第3に、SMCDフレームワークを目標として、拡散に基づくコンテンツ一貫性損失とコンテンツ一貫性損失を提案し、フレームワーク全体のトレーニングを支援する。
最後に、広範な実験を行う。
その結果,本手法は質的,定量的両比較において最先端の手法を超越し,より現実的な動作系列を生成することができることがわかった。
Motion style transfer is a significant research direction in multimedia applications. It enables the rapid switching of different styles of the same motion for virtual digital humans, thus vastly increasing the diversity and realism of movements. It is widely applied in multimedia scenarios such as movies, games, and the Metaverse. However, most of the current work in this field adopts the GAN, which may lead to instability and convergence issues, making the final generated motion sequence somewhat chaotic and unable to reflect a highly realistic and natural style. To address these problems, we consider style motion as a condition and propose the Style Motion Conditioned Diffusion (SMCD) framework for the first time, which can more comprehensively learn the style features of motion. Moreover, we apply Mamba model for the first time in the motion style transfer field, introducing the Motion Style Mamba (MSM) module to handle longer motion sequences. Thirdly, aiming at the SMCD framework, we propose Diffusion-based Content Consistency Loss and Content Consistency Loss to assist the overall framework's training. Finally, we conduct extensive experiments. The results reveal that our method surpasses state-of-the-art methods in both qualitative and quantitative comparisons, capable of generating more realistic motion sequences. | 翻訳日:2024-05-07 18:00:36 公開日:2024-05-05 |
# 階層型テクスチャインバージョンを用いたデータ効率の良い分子生成
Data-Efficient Molecular Generation with Hierarchical Textual Inversion ( http://arxiv.org/abs/2405.02845v1 ) ライセンス: Link先を確認 | Seojin Kim, Jaehyun Nam, Sihyun Yu, Younghoon Shin, Jinwoo Shin, | (参考訳) 分子数が限られていても効果的な分子生成フレームワークを開発することは、例えば薬物発見のような実践的な展開において重要であることが多い。
そこで本研究では, 分子生成のための階層型テキスト変換法 (HI-Mol) を提案する。
HI-Molは分子分布を理解する上での階層的情報、例えば粗くきめ細かな特徴の重要性にインスパイアされている。
本稿では,データ効率のよい画像生成を実現する視覚領域における最近のテキストインバージョン技術の採用に基づく,階層的な特徴を反映したマルチレベル埋め込みを提案する。
単一レベルトークン埋め込みを用いた画像領域の従来のテキストインバージョン法と比較して, マルチレベルトークン埋め込みにより, 基礎となる低ショット分子分布を効果的に学習することができる。
次に、多層トークン埋め込みの補間に基づく分子を生成する。
実験により、HI-Molの優れたデータ効率が示された。
例えば、QM9では、HI-Molは50倍のトレーニングデータで従来の最先端の手法よりも優れています。
また,HI-Molが生成する分子の低ショット分子特性予測における有効性を示す。
Developing an effective molecular generation framework even with a limited number of molecules is often important for its practical deployment, e.g., drug discovery, since acquiring task-related molecular data requires expensive and time-consuming experimental costs. To tackle this issue, we introduce Hierarchical textual Inversion for Molecular generation (HI-Mol), a novel data-efficient molecular generation method. HI-Mol is inspired by the importance of hierarchical information, e.g., both coarse- and fine-grained features, in understanding the molecule distribution. We propose to use multi-level embeddings to reflect such hierarchical features based on the adoption of the recent textual inversion technique in the visual domain, which achieves data-efficient image generation. Compared to the conventional textual inversion method in the image domain using a single-level token embedding, our multi-level token embeddings allow the model to effectively learn the underlying low-shot molecule distribution. We then generate molecules based on the interpolation of the multi-level token embeddings. Extensive experiments demonstrate the superiority of HI-Mol with notable data-efficiency. For instance, on QM9, HI-Mol outperforms the prior state-of-the-art method with 50x less training data. We also show the effectiveness of molecules generated by HI-Mol in low-shot molecular property prediction. | 翻訳日:2024-05-07 18:00:36 公開日:2024-05-05 |
# Responsible AI - インテリジェントなバイオロメトリによるポートフォリオ
Responsible AI: Portraits with Intelligent Bibliometrics ( http://arxiv.org/abs/2405.02846v1 ) ライセンス: Link先を確認 | Yi Zhang, Mengjia Wu, Guangquan Zhang, Jie Lu, | (参考訳) 原則から実践的実装へと焦点を移し、責任ある人工知能(AI)は、学界、産業、社会全体にかなりの注目を集めている。
初期段階にあるにもかかわらず、この新興分野は、曖昧な概念と複雑な知識フレームワークで波及している。
説明可能なAI、信頼できるAI、倫理的なAIの3つの一般的な概念を分析することで、この研究は責任あるAIを定義し、そのコア原則を特定した。
本研究は,知識発見の強化とドメイン洞察を用いた実験的検討モデルの相互検証のために,AIの能力をバイオロメトリに活用することの実装を成功裏に実証した。
この研究は、2015年からAIコミュニティが寄稿した17,799の論文を実証的に調査した。
これには、主要な技術プレーヤーとその関係を認識し、責任あるAIのトピックのランドスケープと階層を明らかにし、その進化をチャート化し、責任の原則と主要なAI技術の間の相互作用を解明することが含まれる。
複数の分野から380の記事からなるコアコホートの分析は、責任あるAIの最新の進歩を捉えている。
責任あるAIを探求するための先駆的な文献学研究の1つとして、この研究は、責任あるAIの理解を高めつつ、AI規制とガバナンスイニシアチブのための貴重な知識支援を行うとともに、責任あるAIに関する総合的なマクロレベルの洞察を提供する。
Shifting the focus from principles to practical implementation, responsible artificial intelligence (AI) has garnered considerable attention across academia, industry, and society at large. Despite being in its nascent stages, this emerging field grapples with nebulous concepts and intricate knowledge frameworks. By analyzing three prevailing concepts - explainable AI, trustworthy AI, and ethical AI, this study defined responsible AI and identified its core principles. Methodologically, this study successfully demonstrated the implementation of leveraging AI's capabilities into bibliometrics for enhanced knowledge discovery and the cross-validation of experimentally examined models with domain insights. Empirically, this study investigated 17,799 research articles contributed by the AI community since 2015. This involves recognizing key technological players and their relationships, unveiling the topical landscape and hierarchy of responsible AI, charting its evolution, and elucidating the interplay between the responsibility principles and primary AI techniques. An analysis of a core cohort comprising 380 articles from multiple disciplines captures the most recent advancements in responsible AI. As one of the pioneering bibliometric studies dedicated to exploring responsible AI, this study will provide comprehensive macro-level insights, enhancing the understanding of responsible AI while furnishing valuable knowledge support for AI regulation and governance initiatives. | 翻訳日:2024-05-07 18:00:36 公開日:2024-05-05 |
# 準エルミート合成系に対する剛ヒルベルト空間の定式化
Rigged Hilbert Space formulation for quasi-Hermitian composite systems ( http://arxiv.org/abs/2405.02848v1 ) ライセンス: Link先を確認 | Shousuke Ohmori, | (参考訳) この研究における議論は、引き裂かれたヒルベルト空間(RHS)に基づく準エルミート量子合成系に対するディラックのブラケット形式について論じる。
準ハーマイト複合系に適した正定値の RHS を確立する。
得られたRHSを用いて、非ハーマイト複合系のブラとケットベクターを構築し、準エルミート作用素のスペクトル分解を生成する。
準エルミート作用素に関する対称関係は双対空間に拡張でき、ブラケット形式を用いて得られるすべての記述は双対空間で完全に展開されることを示す。
本手法は共形多次元多体系からなる非エルミート高調波発振器に適用する。
The discussion in this study delves into Dirac's bra-ket formalism for a quasi-Hermitian quantum composite system based on the rigged Hilbert space (RHS). We establish an RHS with a positive definite metric suitable for a quasi-Hermite composite system. The obtained RHS is utilized to construct the bra and ket vectors for the non-Hermite composite system and produce the spectral decomposition of the quasi-Hermitian operator. We show that the symmetric relations regarding quasi-Hermitian operators can be extended to dual spaces, and all descriptions obtained using the bra-ket formalism are completely developed in the dual spaces. Our methodology is applied to a non-Hermitian harmonic oscillator composed of conformal multi-dimensional many-body systems. | 翻訳日:2024-05-07 18:00:36 公開日:2024-05-05 |
# 金融取引における不透明なバイラテラル市場ダイナミクスのモデル化:マルチエージェントシミュレーションによる考察
Modelling Opaque Bilateral Market Dynamics in Financial Trading: Insights from a Multi-Agent Simulation Study ( http://arxiv.org/abs/2405.02849v1 ) ライセンス: Link先を確認 | Alicia Vidler, Toby Walsh, | (参考訳) マルチエージェントに基づくシミュレーション手法による複雑な適応型金融取引環境の探索は、量的金融の領域における革新的なアプローチを示す。
観測可能なデータを持つ金融市場では、マルチエージェント強化学習アプローチが支配的だが、部分的または曖昧なデータ可用性のために課題を提起する、体系的に重要な金融市場がいくつか存在する。
そこで我々は,小規模メタヒューリスティック手法を用いたマルチエージェントシミュレーション手法を考案した。
このアプローチは、オーストラリア政府の債券取引における不透明な二国間市場を表現することを目的としており、銀行間取引(over-the-counter(OTC)トレーディングとも呼ばれる)の2国間の性質を捉え、一般に「市場メーカー」間で発生する。
交渉された取引と限られた数のエージェントによって特徴づけられる二国間市場の特異性は、エージェントベースのモデリングと量的金融に価値ある洞察をもたらす。
この市場構造の本質的な剛性は、多国間プラットフォームのグローバルな拡大と金融の分散化と相反するものであり、エージェントベースのモデルによって提供されるユニークな洞察を浮き彫りにしている。
市場構造における市場剛性の影響を考察し,市場設計における安定性の要素について考察する。
これにより、複雑な金融取引環境に関する議論が拡大し、そのダイナミクスと意味に関する理解が強化される。
Exploring complex adaptive financial trading environments through multi-agent based simulation methods presents an innovative approach within the realm of quantitative finance. Despite the dominance of multi-agent reinforcement learning approaches in financial markets with observable data, there exists a set of systematically significant financial markets that pose challenges due to their partial or obscured data availability. We, therefore, devise a multi-agent simulation approach employing small-scale meta-heuristic methods. This approach aims to represent the opaque bilateral market for Australian government bond trading, capturing the bilateral nature of bank-to-bank trading, also referred to as "over-the-counter" (OTC) trading, and commonly occurring between "market makers". The uniqueness of the bilateral market, characterized by negotiated transactions and a limited number of agents, yields valuable insights for agent-based modelling and quantitative finance. The inherent rigidity of this market structure, which is at odds with the global proliferation of multilateral platforms and the decentralization of finance, underscores the unique insights offered by our agent-based model. We explore the implications of market rigidity on market structure and consider the element of stability, in market design. This extends the ongoing discourse on complex financial trading environments, providing an enhanced understanding of their dynamics and implications. | 翻訳日:2024-05-07 18:00:36 公開日:2024-05-05 |
# ハーフウェイエスケープ最適化:複雑な最適化問題に対する量子インスパイアされた解法
Halfway Escape Optimization: A Quantum-Inspired Solution for Complex Optimization Problems ( http://arxiv.org/abs/2405.02850v1 ) ライセンス: Link先を確認 | Jiawen Li, Anwar PP Abdul Majeed, Pascal Lefevre, | (参考訳) 本稿ではまず,高次収束率で高次元の地形を特徴とする複雑な最適化問題に対処するために,量子に着想を得た新しいメタヒューリスティックであるHalfway Escape Optimization (HEO)アルゴリズムを提案する。
本研究では,粒子群最適化 (PSO), 遺伝的アルゴリズム (GA), 人工魚群アルゴリズム (AFSA), グレイウルフ最適化 (GWO), 量子行動群最適化 (QPSO) など,確立された最適化アルゴリズムに対するHEOの性能を総合的に比較した。
一次分析は、次元30の14のベンチマーク関数を含み、複雑な最適化ランドスケープをナビゲートし、そのパフォーマンスに関する貴重な洞察を提供するHEOの有効性と適応性を示す。
旅行セールスマン問題(TSP)におけるHEOの簡単なテストは、リアルタイムアプリケーションにおけるその実現可能性も推測する。
This paper first proposes the Halfway Escape Optimization (HEO) algorithm, a novel quantum-inspired metaheuristic designed to address complex optimization problems characterized by rugged landscapes and high-dimensionality with an efficient convergence rate. The study presents a comprehensive comparative evaluation of HEO's performance against established optimization algorithms, including Particle Swarm Optimization (PSO), Genetic Algorithm (GA), Artificial Fish Swarm Algorithm (AFSA), Grey Wolf Optimizer (GWO), and Quantum behaved Particle Swarm Optimization (QPSO). The primary analysis encompasses 14 benchmark functions with dimension 30, demonstrating HEO's effectiveness and adaptability in navigating complex optimization landscapes and providing valuable insights into its performance. The simple test of HEO in Traveling Salesman Problem (TSP) also infers its feasibility in real-time applications. | 翻訳日:2024-05-07 18:00:36 公開日:2024-05-05 |
# 畳み込みニューラルネットワークを用いた多集団間脳腫瘍分離の促進について
On Enhancing Brain Tumor Segmentation Across Diverse Populations with Convolutional Neural Networks ( http://arxiv.org/abs/2405.02852v1 ) ライセンス: Link先を確認 | Fadillah Maani, Anees Ur Rehman Hashmi, Numan Saeed, Mohammad Yaqub, | (参考訳) 脳腫瘍のセグメンテーションは、患者のがん進行を評価するための基本的なステップである。
しかし、手動分割は3次元マルチモーダル脳MRIスキャンで腫瘍を正確に識別するためにかなりの専門的な時間を必要とする。
この手動のセグメンテーションに依存しているため、プロセスはサーバ内およびサーバ間の可変性が難しくなる。
本研究は、BraTS-GoATチャレンジの一環として、脳腫瘍セグメンテーション法を提案する。
課題は、成人、小児科、サハラ以南のアフリカなどの様々な集団から脳MRIスキャンで腫瘍を抽出することである。
我々は、MedNeXtという医療画像セグメント化のための最近のCNNアーキテクチャをベースラインとして採用し、推論のための広範囲なモデルアンサンブルと後処理を実装した。
実験の結果, 平均DSCは85.54%, HD95は27.88。
コードはhttps://github.com/BioMedIA-MBzuAI/BraTS2024_BioMedIAMBZで公開されている。
Brain tumor segmentation is a fundamental step in assessing a patient's cancer progression. However, manual segmentation demands significant expert time to identify tumors in 3D multimodal brain MRI scans accurately. This reliance on manual segmentation makes the process prone to intra- and inter-observer variability. This work proposes a brain tumor segmentation method as part of the BraTS-GoAT challenge. The task is to segment tumors in brain MRI scans automatically from various populations, such as adults, pediatrics, and underserved sub-Saharan Africa. We employ a recent CNN architecture for medical image segmentation, namely MedNeXt, as our baseline, and we implement extensive model ensembling and postprocessing for inference. Our experiments show that our method performs well on the unseen validation set with an average DSC of 85.54% and HD95 of 27.88. The code is available on https://github.com/BioMedIA-MBZUAI/BraTS2024_BioMedIAMBZ. | 翻訳日:2024-05-07 18:00:36 公開日:2024-05-05 |
# I$^3$Net:医療スライス合成のためのイントラスライス間補間ネットワーク
I$^3$Net: Inter-Intra-slice Interpolation Network for Medical Slice Synthesis ( http://arxiv.org/abs/2405.02857v1 ) ライセンス: Link先を確認 | Haofei Song, Xintian Mao, Jing Yu, Qingli Li, Yan Wang, | (参考訳) 医用画像は取得時間と走査装置によって制限される。
CTおよびMRボリュームは、より厚いスライスで再構成され、高平面解像度と低平面解像度で異方性である。
我々は、データの性質から、軸方向からのスライスワイス補間が他の視点からの超解像よりも大きな利益をもたらすという興味深い現象を明らかにした。
この観測に基づいて,高平面解像度からの情報を完全に探索し,低平面解像度を補償するインタートラスライス補間ネットワーク(I$^3$Net)を提案する。
スループレーンブランチは、高平面解像度から低平面解像度に含まれる限られた情報を補足し、連続的かつ多様な特徴学習を可能にする。
面内分岐は、機能を周波数領域に変換し、グローバルな文脈学習パラダイムにおいて、すべての周波数帯域に対して等しく学習する機会を強制する。
さらに、オンラインの3つのビューからの情報を活用するために、クロスビューブロックを提案する。
2つの公開データセットに対する大規模な実験は、I$^3$Netの有効性を示し、最先端の超解像、ビデオフレーム補間およびスライス補間法を大きなマージンで明らかに上回っている。
我々はPSNRで43.90dBを達成し、より高速な推論でMSDデータセット上で$\times$2のスケールアップ係数で少なくとも1.14dBの改善を実現した。
コードはhttps://github.com/DeepMed-Lab-ECNU/Medical-Image-Reconstructionで公開されている。
Medical imaging is limited by acquisition time and scanning equipment. CT and MR volumes, reconstructed with thicker slices, are anisotropic with high in-plane resolution and low through-plane resolution. We reveal an intriguing phenomenon that due to the mentioned nature of data, performing slice-wise interpolation from the axial view can yield greater benefits than performing super-resolution from other views. Based on this observation, we propose an Inter-Intra-slice Interpolation Network (I$^3$Net), which fully explores information from high in-plane resolution and compensates for low through-plane resolution. The through-plane branch supplements the limited information contained in low through-plane resolution from high in-plane resolution and enables continual and diverse feature learning. In-plane branch transforms features to the frequency domain and enforces an equal learning opportunity for all frequency bands in a global context learning paradigm. We further propose a cross-view block to take advantage of the information from all three views online. Extensive experiments on two public datasets demonstrate the effectiveness of I$^3$Net, and noticeably outperforms state-of-the-art super-resolution, video frame interpolation and slice interpolation methods by a large margin. We achieve 43.90dB in PSNR, with at least 1.14dB improvement under the upscale factor of $\times$2 on MSD dataset with faster inference. Code is available at https://github.com/DeepMed-Lab-ECNU/Medical-Image-Reconstruction. | 翻訳日:2024-05-07 18:00:36 公開日:2024-05-05 |
# LLMに基づくマルチエージェントシミュレーションによるソーシャルメディア規制の活用のための言語進化
Language Evolution for Evading Social Media Regulation via LLM-based Multi-agent Simulation ( http://arxiv.org/abs/2405.02858v1 ) ライセンス: Link先を確認 | Jinyu Cai, Jialong Li, Mingyue Zhang, Munan Li, Chen-Shu Wang, Kenji Tei, | (参考訳) Twitter、Reddit、Sina Weiboといったソーシャルメディアプラットフォームは、グローバルコミュニケーションにおいて重要な役割を担っているが、地理的に敏感な地域では厳しい規制に直面していることが多い。
この状況は、ユーザーがこれらの規制されたソーシャルメディア環境において、しばしばコード化された言語に頼って、コミュニケーションの方法を巧みに修正するきっかけとなった。
このコミュニケーションの変化は単なる規制に対抗する戦略ではなく、言語進化の鮮明な表象であり、社会的・技術的圧力の下で言語がどのように自然に進化するかを示している。
規制されたソーシャルメディアの文脈における言語の発展を研究することは、言論の自由の確保、コンテンツモデレーションの最適化、言語研究の進展において重要な意味を持つ。
本稿では,Large Language Models (LLM) を用いたマルチエージェント・シミュレーション・フレームワークを提案する。
このフレームワークでは、LLM主体のエージェントが採用され、会話をしながら言語戦略を進化させ、ソーシャルメディア規制を回避するための厳格な規制の下でコミュニケーションスタイルの進化をシミュレートする。
この研究は、抽象シナリオから現実の状況まで、様々なシナリオを通してフレームワークの有効性を評価する。
鍵となる知見は、LLMが言語力学と制約された環境での相互作用をシミュレートでき、進化が進むにつれて、監督の回避と情報の正確さが向上することを示している。
さらに, LLMエージェントは異なるシナリオに対して異なる戦略を採用することが判明した。
Social media platforms such as Twitter, Reddit, and Sina Weibo play a crucial role in global communication but often encounter strict regulations in geopolitically sensitive regions. This situation has prompted users to ingeniously modify their way of communicating, frequently resorting to coded language in these regulated social media environments. This shift in communication is not merely a strategy to counteract regulation, but a vivid manifestation of language evolution, demonstrating how language naturally evolves under societal and technological pressures. Studying the evolution of language in regulated social media contexts is of significant importance for ensuring freedom of speech, optimizing content moderation, and advancing linguistic research. This paper proposes a multi-agent simulation framework using Large Language Models (LLMs) to explore the evolution of user language in regulated social media environments. The framework employs LLM-driven agents: supervisory agent who enforce dialogue supervision and participant agents who evolve their language strategies while engaging in conversation, simulating the evolution of communication styles under strict regulations aimed at evading social media regulation. The study evaluates the framework's effectiveness through a range of scenarios from abstract scenarios to real-world situations. Key findings indicate that LLMs are capable of simulating nuanced language dynamics and interactions in constrained settings, showing improvement in both evading supervision and information accuracy as evolution progresses. Furthermore, it was found that LLM agents adopt different strategies for different scenarios. | 翻訳日:2024-05-07 18:00:36 公開日:2024-05-05 |
# MVIP-NeRF:拡散先行によるNeRFシーンのマルチビュー3Dインペインティング
MVIP-NeRF: Multi-view 3D Inpainting on NeRF Scenes via Diffusion Prior ( http://arxiv.org/abs/2405.02859v1 ) ライセンス: Link先を確認 | Honghua Chen, Chen Change Loy, Xingang Pan, | (参考訳) 明示的なRGBと深度2Dの塗布監督に基づいて構築されたNeRF塗布法が成功したにもかかわらず、これらの方法は根底にある2D塗布の能力によって本質的に制約されている。
主な理由は2つある。
(i)構成像を独立に塗布すると、表示不整合画像となり、
(II)2次元インペイントは、高品質な幾何学的完成と、インペイントされたRGB画像との整合性を確保するのに苦労する。
これらの制約を克服するため, MVIP-NeRFと呼ばれる新しい手法を提案し, 外観面と幾何学面の両方に対処する。
MVIP-NeRFは、複数のビューにまたがる共同塗装を行い、一貫したソリューションに到達し、スコア蒸留サンプリング(SDS)に基づいた反復最適化プロセスによって達成される。
レンダリングされたRGB画像の復元とは別に、幾何学的表現として正規地図を抽出し、正確な幾何学的インペイントと外観との整合を動機付ける通常のSDS損失を定義する。
さらに、多視点SDSスコア関数を定式化し、異なるビュー画像から生成前の情報を同時に抽出し、大きなビュー変動を扱う際に一貫した視覚的補完を確保する。
実験の結果,従来のNeRF塗装法よりも外観や形状の回復性が良好であった。
Despite the emergence of successful NeRF inpainting methods built upon explicit RGB and depth 2D inpainting supervisions, these methods are inherently constrained by the capabilities of their underlying 2D inpainters. This is due to two key reasons: (i) independently inpainting constituent images results in view-inconsistent imagery, and (ii) 2D inpainters struggle to ensure high-quality geometry completion and alignment with inpainted RGB images. To overcome these limitations, we propose a novel approach called MVIP-NeRF that harnesses the potential of diffusion priors for NeRF inpainting, addressing both appearance and geometry aspects. MVIP-NeRF performs joint inpainting across multiple views to reach a consistent solution, which is achieved via an iterative optimization process based on Score Distillation Sampling (SDS). Apart from recovering the rendered RGB images, we also extract normal maps as a geometric representation and define a normal SDS loss that motivates accurate geometry inpainting and alignment with the appearance. Additionally, we formulate a multi-view SDS score function to distill generative priors simultaneously from different view images, ensuring consistent visual completion when dealing with large view variations. Our experimental results show better appearance and geometry recovery than previous NeRF inpainting methods. | 翻訳日:2024-05-07 18:00:36 公開日:2024-05-05 |
# ネックの痛みを再考する: 言語モデルのための意味的フレーズ処理ベンチマーク
Revisiting a Pain in the Neck: Semantic Phrase Processing Benchmark for Language Models ( http://arxiv.org/abs/2405.02861v1 ) ライセンス: Link先を確認 | Yang Liu, Melissa Xiaohui Qin, Hongming Li, Chao Huang, | (参考訳) 言語モデル(LM)を10のセマンティックフレーズ処理タスクでテストできる総合評価スイートであるLexBenchを紹介した。
先行研究とは異なり、一般的な意味的フレーズ(語彙的コロケーション)と、慣用的表現、名詞合成、動詞構成を含む3つのきめ細かい意味的フレーズをモデル化するために比較的な視点からフレームワークを提案する最初の研究である。
モデルアーキテクチャにおける15個のLMの性能評価と,分類,抽出,解釈タスクにおけるパラメータスケールの評価を行った。
実験を通じて、まずスケーリングの法則を検証し、期待通り、多くのタスクにおいて、大きなモデルの方が小さなモデルよりも優れていることを発見した。
第2に,スケーリングセマンティックリレーションの分類によるさらなる検討を行い,タスク中のバニラ微調整モデルにはまだ遅れがみられていないことを確認する。
第3に、人間の評価により、強いモデルの性能は意味的フレーズ処理に関する人間レベルに匹敵することがわかった。
我々のベンチマーク結果は,意味的フレーズ理解におけるLMの汎用的能力の向上を目的とした今後の研究に役立つだろう。
ソースコードとデータはhttps://github.com/jacklanda/LexBenchで公開されています。
We introduce LexBench, a comprehensive evaluation suite enabled to test language models (LMs) on ten semantic phrase processing tasks. Unlike prior studies, it is the first work to propose a framework from the comparative perspective to model the general semantic phrase (i.e., lexical collocation) and three fine-grained semantic phrases, including idiomatic expression, noun compound, and verbal construction. Thanks to \ourbenchmark, we assess the performance of 15 LMs across model architectures and parameter scales in classification, extraction, and interpretation tasks. Through the experiments, we first validate the scaling law and find that, as expected, large models excel better than the smaller ones in most tasks. Second, we investigate further through the scaling semantic relation categorization and find that few-shot LMs still lag behind vanilla fine-tuned models in the task. Third, through human evaluation, we find that the performance of strong models is comparable to the human level regarding semantic phrase processing. Our benchmarking findings can serve future research aiming to improve the generic capability of LMs on semantic phrase comprehension. Our source code and data are available at https://github.com/jacklanda/LexBench | 翻訳日:2024-05-07 18:00:36 公開日:2024-05-05 |
# フィンテックセクターの規制から要件を推測する場合の実践, 課題, 機会
Practices, Challenges, and Opportunities When Inferring Requirements From Regulations in the FinTech Sector - An Industrial Study ( http://arxiv.org/abs/2405.02867v1 ) ライセンス: Link先を確認 | Parisa Elahidoost, Daniel Mendez, Michael Unterkalmsteiner, Jannik Fischbach, Christian Feiler, Jonathan Streit, | (参考訳) [コンテキストとモチベーション]:規制規範を理解して解釈し、それらからソフトウェア要件を推測することは、規制コンプライアンスへの重要なステップであり、様々な産業分野において重要な問題である。
[クエスト/問題]しかし、規則の解釈はいまだに各ドメイン内の個々の法的専門知識や経験に大きく依存しており、この実践を導くための体系的な方法論や支援ツールはほとんどない。
実際、この分野の研究は実践者の経験から逸脱しすぎており、提案された解決策は工業的実践に移行できない。
私たちが議論しているように、ひとつの理由は、業界やドメイン固有のプラクティスや課題に対する深い理解がまだ欠如しているからです。
[基本的考え・結果]このギャップを埋めて、銀行・保険分野の事例でそのような調査を行うことを目指しています。
我々は,中規模のソフトウェア開発・リノベーション企業と長期の学術・産業連携の一環として,産業マルチケーススタディを実施している。
我々は,より問題解決的な研究を支援するために,規制から要件を推測する際の現代産業の実践と課題について考察する。
本研究は,規制文脈における要求工学の複雑さを考察し,諸問題を指摘し,詳細を議論するものである。
収集された洞察と、遭遇した実践的課題を強調し、今後の研究の道筋を提案する。
[貢献]当社のコントリビューションはFinTechドメインに焦点を当てた総合的なケーススタディであり、このセクター内の特定のニーズを詳細に理解しています。
ソフトウェア開発における規制要件を管理するための重要なプラクティスを特定し、いくつかの課題を特定しました。
今後の課題駆動研究の方向性について,一連のレコメンデーションを提供することで結論付ける。
[Context and motivation]: Understanding and interpreting regulatory norms and inferring software requirements from them is a critical step towards regulatory compliance, a matter of significant importance in various industrial sectors. [Question/ problem]: However, interpreting regulations still largely depends on individual legal expertise and experience within the respective domain, with little to no systematic methodologies and supportive tools to guide this practice. In fact, research in this area is too often detached from practitioners' experiences, rendering the proposed solutions not transferable to industrial practice. As we argue, one reason is that we still lack a profound understanding of industry- and domain-specific practices and challenges. [Principal ideas/ results]: We aim to close this gap and provide such an investigation at the example of the banking and insurance domain. We conduct an industrial multi-case study as part of a long-term academia-industry collaboration with a medium-sized software development and renovation company. We explore contemporary industrial practices and challenges when inferring requirements from regulations to support more problem-driven research. Our study investigates the complexities of requirement engineering in regulatory contexts, pinpointing various issues and discussing them in detail. We highlight the gathered insights and the practical challenges encountered and suggest avenues for future research. [Contribution]: Our contribution is a comprehensive case study focused on the FinTech domain, offering a detailed understanding of the specific needs within this sector. We have identified key practices for managing regulatory requirements in software development, and have pinpointed several challenges. We conclude by offering a set of recommendations for future problem-driven research directions. | 翻訳日:2024-05-07 18:00:36 公開日:2024-05-05 |
# セルオートマタ暗号の10年を振り返って
Insights Gained after a Decade of Cellular Automata-based Cryptography ( http://arxiv.org/abs/2405.02875v1 ) ライセンス: Link先を確認 | Luca Mariot, | (参考訳) セルラーオートマタ (CA) は擬似乱数生成器やSボックスなどの対称暗号プリミティブの実装に広く用いられている。
しかし、この分野の研究の大部分は、初期の作品を除いて、非暗号の会場で出版されているようである。
この現象は関連性の問題を引き起こしている:CAは近年、暗号学者に何らかの用途を提供しているか?
本稿では,CA暗号の歴史を概説することによって,この問題に対する洞察を提供する。
そこで本研究では,CAの観点からのみ対称プリミティブの設計に対処する研究の欠点と,今後の研究への提言について述べる。
特にこの論文は、CAや暗号の研究者が、異なる視点や用語の下では、似たような問題に取り組むことが多いことを指摘している。
この観察は、将来CAと暗号コミュニティとの間には、実りあるコラボレーションの余地がまだたくさんあることを示唆している。
Cellular Automata (CA) have been extensively used to implement symmetric cryptographic primitives, such as pseudorandom number generators and S-boxes. However, most of the research in this field, except the very early works, seems to be published in non-cryptographic venues. This phenomenon poses a problem of relevance: are CA of any use to cryptographers nowadays? This paper provides insights into this question by briefly outlining the history of CA-based cryptography. In doing so, the paper identifies some shortcomings in the research addressing the design of symmetric primitives exclusively from a CA standpoint, alongside some recommendations for future research. Notably, the paper remarks that researchers working in CA and cryptography often tackle similar problems, albeit under different perspectives and terminologies. This observation indicates that there is still ample room for fruitful collaborations between the CA and cryptography communities in the future. | 翻訳日:2024-05-07 17:50:42 公開日:2024-05-05 |
# 大規模言語モデルによる進化的計算の改善を探る
Exploring the Improvement of Evolutionary Computation via Large Language Models ( http://arxiv.org/abs/2405.02876v1 ) ライセンス: Link先を確認 | Jinyu Cai, Jinglue Xu, Jialong Li, Takuto Ymauchi, Hitoshi Iba, Kenji Tei, | (参考訳) 進化計算(EC)は、様々な領域にまたがる強力な最適化アルゴリズムである。
しかし、問題の複雑さが増すにつれ、ECの限界はより明確になっている。
大規模言語モデル(LLM)の出現は、自然言語処理を変換しただけでなく、様々な分野にも拡張した。
LLMの膨大な知識と適応能力を活用することで、LCMがECにもたらす可能性のある潜在的な改善の概要を、アルゴリズム自体、人口設計、さらなる拡張に焦点をあてることができます。
このことは、LLMとECの交差点における将来の研究に有望な方向を示す。
Evolutionary computation (EC), as a powerful optimization algorithm, has been applied across various domains. However, as the complexity of problems increases, the limitations of EC have become more apparent. The advent of large language models (LLMs) has not only transformed natural language processing but also extended their capabilities to diverse fields. By harnessing LLMs' vast knowledge and adaptive capabilities, we provide a forward-looking overview of potential improvements LLMs can bring to EC, focusing on the algorithms themselves, population design, and additional enhancements. This presents a promising direction for future research at the intersection of LLMs and EC. | 翻訳日:2024-05-07 17:50:42 公開日:2024-05-05 |
# 3段ロバストポーズ最適化による分散NeRFのブレンディング
Blending Distributed NeRFs with Tri-stage Robust Pose Optimization ( http://arxiv.org/abs/2405.02880v1 ) ライセンス: Link先を確認 | Baijun Ye, Caiyun Liu, Xiaoyu Ye, Yuantao Chen, Yuhai Wang, Zike Yan, Yongliang Shi, Hao Zhao, Guyue Zhou, | (参考訳) モデル容量が限られているため、広域都市環境のモデリングに分散ニューラルネットワーク場(NeRF)を利用する必要がある。
しかし、現在の分散NeRF登録手法は、レンダリングの精度の差や、最適でないポーズの精度に起因して、エイリアシングアーティファクトに遭遇する。
これらの因子は、NeRFフレームワーク内でのポーズ推定の忠実度を総合的に低下させ、NeRFブレンディング段階における閉塞アーティファクトをもたらす。
本稿では,三段ポーズ最適化を用いた分散NeRFシステムを提案する。
第1段階では、粗大な戦略でMip-NeRF 360をバンドル調整することで、画像の正確なポーズを実現する。
第2段階では,倒立型 Mip-NeRF 360 とトラッピングされた動的低域通過フィルタを併用して,ロバストかつ高精度なポーズの達成を可能にする Frame2Model 最適化を行った。
これに加えて、異なる座標系におけるNeRF間の粗い変換が得られる。
第3段階では、モデル2Modelのポーズ最適化により、NeRF間の変換を微調整する。
正確な変換パラメータを得た後、我々はNeRFブレンディングを実装し、実世界のシナリオとシミュレーションシナリオの両方において優れたパフォーマンス指標を示す。
コードとデータはhttps://github.com/boilcy/Distributed-NeRFで公開される。
Due to the limited model capacity, leveraging distributed Neural Radiance Fields (NeRFs) for modeling extensive urban environments has become a necessity. However, current distributed NeRF registration approaches encounter aliasing artifacts, arising from discrepancies in rendering resolutions and suboptimal pose precision. These factors collectively deteriorate the fidelity of pose estimation within NeRF frameworks, resulting in occlusion artifacts during the NeRF blending stage. In this paper, we present a distributed NeRF system with tri-stage pose optimization. In the first stage, precise poses of images are achieved by bundle adjusting Mip-NeRF 360 with a coarse-to-fine strategy. In the second stage, we incorporate the inverting Mip-NeRF 360, coupled with the truncated dynamic low-pass filter, to enable the achievement of robust and precise poses, termed Frame2Model optimization. On top of this, we obtain a coarse transformation between NeRFs in different coordinate systems. In the third stage, we fine-tune the transformation between NeRFs by Model2Model pose optimization. After obtaining precise transformation parameters, we proceed to implement NeRF blending, showcasing superior performance metrics in both real-world and simulation scenarios. Codes and data will be publicly available at https://github.com/boilcy/Distributed-NeRF. | 翻訳日:2024-05-07 17:50:42 公開日:2024-05-05 |
# FedConPE: 異種クライアントによる効率的なフェデレーション会話帯域
FedConPE: Efficient Federated Conversational Bandits with Heterogeneous Clients ( http://arxiv.org/abs/2405.02881v1 ) ライセンス: Link先を確認 | Zhuohua Li, Maoli Liu, John C. S. Lui, | (参考訳) 会話レコメンデータシステムは,ユーザの好みを効率的に抽出する強力なソリューションとして登場してきた。
これらのシステムは、ユーザに対して「キーワード」に関連するクエリを対話的に提示し、ユーザのフィードバックを活用して、ユーザの好みをより効率的に見積もる。
それでも、既存のアルゴリズムのほとんどは集中型アプローチを採用している。
本稿では,フェデレーションに基づくフェデレーション型会話包帯アルゴリズムであるFedConPEを紹介し,M$エージェントは,セキュアなデータ管理を確保しつつ,中央サーバの助けを借りて,グローバルなコンテキスト線形包帯問題を協調的に解決する。
すべてのクライアントを効果的にコーディネートし、収集したデータを集約するために、FedConPEは、アダプティブアプローチを使用して、機能空間のすべての次元における不確実性を最小化するキー用語を構築します。
さらに、FedConPEは、既存のフェデレーション線形帯域幅アルゴリズムと比較して、計算効率と通信効率の改善、およびプライバシー保護の強化を提供する。
理論的解析から,FedConPEは累積的後悔の点において最小値に近い最適値であることが示唆された。
また,通信コストと会話頻度の上限を設定した。
包括的評価は、FedConPEが既存の会話の帯域幅アルゴリズムより優れており、会話が少なくなっていることを示している。
Conversational recommender systems have emerged as a potent solution for efficiently eliciting user preferences. These systems interactively present queries associated with "key terms" to users and leverage user feedback to estimate user preferences more efficiently. Nonetheless, most existing algorithms adopt a centralized approach. In this paper, we introduce FedConPE, a phase elimination-based federated conversational bandit algorithm, where $M$ agents collaboratively solve a global contextual linear bandit problem with the help of a central server while ensuring secure data management. To effectively coordinate all the clients and aggregate their collected data, FedConPE uses an adaptive approach to construct key terms that minimize uncertainty across all dimensions in the feature space. Furthermore, compared with existing federated linear bandit algorithms, FedConPE offers improved computational and communication efficiency as well as enhanced privacy protections. Our theoretical analysis shows that FedConPE is minimax near-optimal in terms of cumulative regret. We also establish upper bounds for communication costs and conversation frequency. Comprehensive evaluations demonstrate that FedConPE outperforms existing conversational bandit algorithms while using fewer conversations. | 翻訳日:2024-05-07 17:50:42 公開日:2024-05-05 |
# 改良型バックボーンと多重ピラミッド特徴マップ強化構造(MDDPE)を有するドローン検出器
A drone detector with modified backbone and multiple pyramid featuremaps enhancement structure (MDDPE) ( http://arxiv.org/abs/2405.02882v1 ) ライセンス: Link先を確認 | Chenhao Wu, | (参考訳) 本研究は,後方構造を改良したドローン検知器と,複数のピラミッド特徴地図強調構造(MDDPE)を提案する。
新たな特徴マップでは,情報レベルの異なるモジュールを改良し,より堅牢で差別的な特徴を創出する。
これらのモジュールは、機能マップ補完機能と、機能マップ再結合強化機能を含み、ドローンの特性を効果的に扱うために、設計された調整アンカーを用いて、初期的に実施される補助的な監督機能を利用する。
実際のドローン検出シナリオのモデリングと回帰器の初期化をさらに改善するため、アンカーと地上の真理ドローンを密にマッチングするために、改良されたアンカーマッチング技術が導入された。
最も先進的な検出器よりもMDDPEの方が優れていることを示すために、よく知られたドローン検出ベンチマークを用いて広範な実験を行った。
This work presents a drone detector with modified backbone and multiple pyramid feature maps enhancement structure (MDDPE). Novel feature maps improve modules that uses different levels of information to produce more robust and discriminatory features is proposed. These module includes the feature maps supplement function and the feature maps recombination enhancement function.To effectively handle the drone characteristics, auxiliary supervisions that are implemented in the early stages by employing tailored anchors designed are utilized. To further improve the modeling of real drone detection scenarios and initialization of the regressor, an updated anchor matching technique is introduced to match anchors and ground truth drone as closely as feasible. To show the proposed MDDPE's superiority over the most advanced detectors, extensive experiments are carried out using well-known drone detection benchmarks. | 翻訳日:2024-05-07 17:50:42 公開日:2024-05-05 |
# 言語間の感性分析:英語への機械翻訳前後の評価
Sentiment Analysis Across Languages: Evaluation Before and After Machine Translation to English ( http://arxiv.org/abs/2405.02887v1 ) ライセンス: Link先を確認 | Aekansh Kathunia, Mohammad Kaif, Nalin Arora, N Narotam, | (参考訳) 約780の言語がインドだけで話されている。
この言語的多様性にもかかわらず、感性分析の研究は主に英語のテキストデータに焦点を当てており、その結果、英語の感情資源が不均等に利用できるようになった。
本稿では,機械翻訳を行った多言語データセットおよびテキストを対象とした感性分析タスクにおけるトランスフォーマーモデルの性能について検討する。
異なる言語文脈におけるこれらのモデルの有効性を比較することで、それらの性能変化と様々な言語における感情分析の潜在的な影響について洞察を得ることができる。
また,今後の課題と今後の課題についても論じる。
People communicate in more than 7,000 languages around the world, with around 780 languages spoken in India alone. Despite this linguistic diversity, research on Sentiment Analysis has predominantly focused on English text data, resulting in a disproportionate availability of sentiment resources for English. This paper examines the performance of transformer models in Sentiment Analysis tasks across multilingual datasets and text that has undergone machine translation. By comparing the effectiveness of these models in different linguistic contexts, we gain insights into their performance variations and potential implications for sentiment analysis across diverse languages. We also discuss the shortcomings and potential for future work towards the end. | 翻訳日:2024-05-07 17:50:42 公開日:2024-05-05 |
# ロボット工学におけるPh.D.学生の倫理的感受性の探索
Exploring the ethical sensitivity of Ph.D. students in robotics ( http://arxiv.org/abs/2405.02893v1 ) ライセンス: Link先を確認 | Linda Battistuzzi, Lucrezia Grassi, Antonio Sgorbissa, | (参考訳) 倫理的問題を認識する能力として一般的に定義される倫理的感受性は、専門家や学者の生活において重要な能力であり、倫理的課題をうまく達成するための必須条件であると考えられている。
40年近く前に道徳心理学に現れた概念は、医療、ビジネス、その他の領域で倫理的感受性が広く研究されている。
逆に、ロボットの設計と展開における選択は、社会に広範囲で深い倫理的影響をもたらす可能性があるにもかかわらず、ロボットコミュニティの中ではほとんど、ほとんど、あるいは全く関心を示さなかったようである。
倫理的感受性の欠如がこれらの文脈で起こりうる負の反響のため、ロボット工学者の間で倫理的感受性の発達を促進することは必須であり、この能力の育成に尽力することが重要な仕事となる。
そこで本研究では,ロボット工学分野のPh.D.学生を対象に,災害ロボット工学における倫理的緊張を実証するケース・ヴィグネットを用いて,ロボット工学のPh.D.学生の倫理的感受性を定性的に調査した。
Ethical sensitivity, generally defined as a person's ability to recognize ethical issues and attribute importance to them, is considered to be a crucial competency in the life of professionals and academics and an essential prerequisite to successfully meeting ethical challenges. A concept that first emerged in moral psychology almost 40 years ago, ethical sensitivity has been widely studied in healthcare, business, and other domains. Conversely, it appears to have received little to no attention within the robotics community, even though choices in the design and deployment of robots are likely to have wide-ranging, profound ethical impacts on society. Due to the negative repercussions that a lack of ethical sensitivity can have in these contexts, promoting the development of ethical sensitivity among roboticists is imperative, and endeavoring to train this competency becomes a critical undertaking. Therefore, as a first step in this direction and within the context of a broader effort aimed at developing an online interactive ethics training module for roboticists, we conducted a qualitative exploration of the ethical sensitivity of a sample of Ph.D. students in robotics using case vignettes that exemplified ethical tensions in disaster robotics. | 翻訳日:2024-05-07 17:50:42 公開日:2024-05-05 |
# マルチフィールド駆動オプティメカニカルキャビティにおけるフォトンフォノンアンチバンチングの非古典的効果
Nonclassical effects of photon-phonon antibunching in a multifield driven optomechanical cavity ( http://arxiv.org/abs/2405.02896v1 ) ライセンス: Link先を確認 | Joy Ghosh, Shailendra K. Varshney, Kapil Debnath, | (参考訳) フォトンフォノン対の非古典的なシグネチャはコーシー=シュワルツとベルの不等式に違反することで効果的に検証できる。
本稿では,2次コヒーレンス関数に課される測定基準を解析し,2つのポンピング場で駆動する際の単一オプティメカルキャビティにおける多光子-フォノン励起の抑制につながる量子相関について検討する。
また、コーシー=シュワルツの違反はベルの不等式に関連する局所性のより強いテストを示す理想的な前駆体として機能することが示されている。
キャビティデチューニングと機械周波数の共振で動作しながら、光子(フォノン)遮断の従来と異なる性質を実現するシステムにおいて、弱い駆動と最適結合係数を考察する。
これらの発見は、最適条件下でのサブポアソン信号の生成に有用であり、オンデマンド単光子(フォノン)検出のためのハイブリッドシステムへの応用の可能性を持っている。
The nonclassical signature of a photon-phonon pair can be tested effectively by violating Cauchy-Schwarz and Bell's inequality, which can arise due to antibunching phenomena in coupled bosonic systems. In this paper, we analyze the measurement criteria imposed on the second-order coherence functions and investigate the quantum correlations leading to the suppression of multi-photon-phonon excitation in a single optomechanical cavity upon driving it with two pumping fields. It is also shown that the Cauchy-Schwarz violation can serve as an ideal precursor to demonstrate stronger tests of locality related to Bell's inequality. We consider weak driving and optomechanical coupling coefficient parameters in the system that enables the unconventional nature of photon (phonon) blockades while operating in the resonance of cavity detuning and mechanical frequency. These findings are valuable for generating sub-Poissonian signals in optimal conditions and have potential applications in hybrid systems for on-demand single photon (phonon) detection. | 翻訳日:2024-05-07 17:50:42 公開日:2024-05-05 |
# 温度Rydberg原子を用いた4次振幅変調受信機
A warm Rydberg atom-based quadrature amplitude-modulated receiver ( http://arxiv.org/abs/2405.02901v1 ) ライセンス: Link先を確認 | Jan Nowosielski, Marcin Jastrzębski, Pavel Halavach, Karol Łukanowski, Marcin Jarzyna, Mateusz Mazelanik, Wojciech Wasilewski, Michał Parniak, | (参考訳) ライドバーグ原子は電磁場に対する顕著な感度を示し、磁場センサの革命の候補となる。
従来のアンテナとは異なり、測定されたフィールドを妨害したり、複雑なキャリブレーション手順を必要としない。
本研究では, 2.4GHz帯のWi-Fi周波数帯域近傍における信号受信プロトコルを提案する。
我々はヘテロダイン検出による4次振幅変調と伝送周波数の探索に重点を置いている。
我々は、原子応答周波数範囲と到達可能な電場振幅を包含して、設定の包括的特徴を提供する。
さらに,ボロノイ図を用いて通信エラーを分析し,異なる変調方式による通信路容量の評価を行った。
我々の発見は、将来の無線通信アプリケーションの基礎となるだけでなく、古典的な通信やフィールドセンシング領域におけるプロトコルを洗練させる機会も与えている。
Rydberg atoms exhibit remarkable sensitivity to electromagnetic fields, making them promising candidates for revolutionizing field sensors. Unlike conventional antennas, they neither disturb the measured field nor necessitate intricate calibration procedures. In this study, we propose a protocol for signal reception near the 2.4 GHz Wi-Fi frequency band, harnessing the capabilities of warm Rydberg atoms. Our focus lies on exploring various quadrature amplitude modulations and transmission frequencies through heterodyne detection. We offer a comprehensive characterization of our setup, encompassing the atomic response frequency range and attainable electric field amplitudes. Additionally, we delve into analyzing communication errors using Voronoi diagrams, along with evaluating the communication channel capacity across different modulation schemes. Our findings not only lay the groundwork for future wireless communication applications, but also present opportunities to refine protocols in classical communication and field sensing domains. | 翻訳日:2024-05-07 17:50:42 公開日:2024-05-05 |
# 古典的および量子カーネルを用いたサポートベクトルマシンによるオープンホール遅延の予測
Predicting Open-Hole Laminates Failure Using Support Vector Machines With Classical and Quantum Kernels ( http://arxiv.org/abs/2405.02903v1 ) ライセンス: Link先を確認 | Giorgio Tosti Balducci, Boyang Chen, Matthias Möller, Marc Gerritsma, Roeland De Breuker, | (参考訳) 複合体の開孔破壊のモデル化は複雑な作業であり、相互作用する故障モードと非常に非線形な応答からなる。
この現象の数値モデリングは伝統的に有限要素法に基づいているが、高忠実度と計算コストのトレードオフが必要である。
この欠点を軽減するため、最近の研究は、機械学習を活用して、開口部の複合標本の強度を予測する。
ここでは、データベースモデルも提案するが、分類の観点からは、開孔複合故障に対処する。
より具体的には, 平面載荷時の開放孔複合板の究極的破壊包絡を学習するために, 代理モデルの訓練方法を示す。
そこで我々は,SVMカーネル関数を変更して,サポートベクトルマシン(SVM)と異なる分類器をテストすることによって,分類問題を解く。
カーネルベースのSVMの柔軟性により、最近開発された量子カーネルをアルゴリズムに統合し、標準ラジアル基底関数(RBF)カーネルと比較することもできる。
最後に、カーネル-ターゲットアライメント最適化により、すべてのカーネルのフリーパラメータを最適化し、安全なロード状態とフェール誘導ロード状態を最適に分離する。
その結果、RBFの分類精度は、特にアライメント後に90%以上となり、量子カーネル分類器がそれに近づいた。
Modeling open hole failure of composites is a complex task, consisting in a highly nonlinear response with interacting failure modes. Numerical modeling of this phenomenon has traditionally been based on the finite element method, but requires to tradeoff between high fidelity and computational cost. To mitigate this shortcoming, recent work has leveraged machine learning to predict the strength of open hole composite specimens. Here, we also propose using data-based models but to tackle open hole composite failure from a classification point of view. More specifically, we show how to train surrogate models to learn the ultimate failure envelope of an open hole composite plate under in-plane loading. To achieve this, we solve the classification problem via support vector machine (SVM) and test different classifiers by changing the SVM kernel function. The flexibility of kernel-based SVM also allows us to integrate the recently developed quantum kernels in our algorithm and compare them with the standard radial basis function (RBF) kernel. Finally, thanks to kernel-target alignment optimization, we tune the free parameters of all kernels to best separate safe and failure-inducing loading states. The results show classification accuracies higher than 90% for RBF, especially after alignment, followed closely by the quantum kernel classifiers. | 翻訳日:2024-05-07 17:50:42 公開日:2024-05-05 |
# 部分線形エキスパートの混合
Mixture of partially linear experts ( http://arxiv.org/abs/2405.02905v1 ) ライセンス: Link先を確認 | Yeongsan Hwang, Byungtae Seo, Sangkon Oh, | (参考訳) エキスパートモデルの混合において、一般的な仮定は、応答変数と共変量の間の線型性である。
この仮定には理論的および計算的な利点があるが、変数間の潜在的な非線形関係を見渡すことによって、最適以下の推定につながる可能性がある。
この制限に対処するため、非線形関係を捉えるために不特定関数を組み込んだ部分線形構造を提案する。
軽度条件下では,提案モデルの同定可能性を確立し,実用的な推定アルゴリズムを導入する。
本稿では,シミュレーションや実データ解析など,数値解析による手法の性能評価を行う。
In the mixture of experts model, a common assumption is the linearity between a response variable and covariates. While this assumption has theoretical and computational benefits, it may lead to suboptimal estimates by overlooking potential nonlinear relationships among the variables. To address this limitation, we propose a partially linear structure that incorporates unspecified functions to capture nonlinear relationships. We establish the identifiability of the proposed model under mild conditions and introduce a practical estimation algorithm. We present the performance of our approach through numerical studies, including simulations and real data analysis. | 翻訳日:2024-05-07 17:50:42 公開日:2024-05-05 |
# SalFAU-Net:Salient Object DetectionのためのSaliency Fusion Attention U-Net
SalFAU-Net: Saliency Fusion Attention U-Net for Salient Object Detection ( http://arxiv.org/abs/2405.02906v1 ) ライセンス: Link先を確認 | Kassaw Abraham Mulat, Zhengyong Feng, Tegegne Solomon Eshetie, Ahmed Endris Hasen, | (参考訳) サリアント物体検出(SOD)は、画像セグメンテーションから自律運転まで、コンピュータビジョンにおいて重要な課題である。
完全畳み込みネットワーク(FCN)に基づく手法は、過去数十年間、視覚的塩分濃度の検出において顕著な進歩を遂げてきた。
しかし、これらの手法は、特に複数のオブジェクト、小さなオブジェクト、解像度の低いオブジェクトを含む挑戦的なシーンにおいて、厳密なオブジェクトを正確に検出する制限がある。
この問題に対処するために,注目U-netモデルの各デコーダブロックにサリエンシ融合モジュールを組み込んだサリエンシ融合注意U-Netモデルを提案し,各デコーダブロックからサリエンシ確率マップを生成する。
SalFAU-Netは、画像の最も情報性の高い領域に選択的に焦点をあて、非塩分領域を抑圧するアテンションメカニズムを採用している。
DUTSデータセット上のSalFAU-Netをバイナリクロスエントロピー損失関数を用いて訓練する。
提案手法の有効性を評価するため,6つのSOD評価データセットについて実験を行った。
実験の結果,SalFAU-Net法は平均絶対誤差(MAE),F値,s値,e値など,他の手法と比較して競争性能が高いことがわかった。
Salient object detection (SOD) remains an important task in computer vision, with applications ranging from image segmentation to autonomous driving. Fully convolutional network (FCN)-based methods have made remarkable progress in visual saliency detection over the last few decades. However, these methods have limitations in accurately detecting salient objects, particularly in challenging scenes with multiple objects, small objects, or objects with low resolutions. To address this issue, we proposed a Saliency Fusion Attention U-Net (SalFAU-Net) model, which incorporates a saliency fusion module into each decoder block of the attention U-net model to generate saliency probability maps from each decoder block. SalFAU-Net employs an attention mechanism to selectively focus on the most informative regions of an image and suppress non-salient regions. We train SalFAU-Net on the DUTS dataset using a binary cross-entropy loss function. We conducted experiments on six popular SOD evaluation datasets to evaluate the effectiveness of the proposed method. The experimental results demonstrate that our method, SalFAU-Net, achieves competitive performance compared to other methods in terms of mean absolute error (MAE), F-measure, s-measure, and e-measure. | 翻訳日:2024-05-07 17:50:42 公開日:2024-05-05 |
# 3次元動作のマルチモーダルセンスインフォームド予測
Multimodal Sense-Informed Prediction of 3D Human Motions ( http://arxiv.org/abs/2405.02911v1 ) ライセンス: Link先を確認 | Zhenyu Lou, Qiongjie Cui, Haofan Wang, Xu Tang, Hong Zhou, | (参考訳) ロボットは、現実の3Dシナリオで人間とロボットのコラボレーションをシームレスに達成するために、その行動と経路を事前に計画する。
奨励的な結果にもかかわらず、既存のアプローチでは、外部のシーンが動きのシーケンスに与える影響をほとんど考慮せず、予測において顕著な成果物と物理的不確実性をもたらす。
この制限に対処するため、本研究では、外部3Dシーンと内部人間の視線という2つのモーダル情報に基づいて高忠実度生成を条件とし、将来の人間の活動に対する彼らのサリエンスを認識できる、新しいマルチモーダル・インフォームド・モーション・予測手法を導入する。
さらに、視線情報は人間の意図と見なされ、動きとシーンの特徴を兼ね備えて、第3の意図を意識して、世代を監督し、人間が到達したい場所に合わせる。
一方,有意な点群とそれに基づく点群を明確に区別するために,意味的コヒーレンスを意識した注意を導入し,生成した列と3Dシーンとの合理的な相互作用を確実にする。
実世界の2つのベンチマークにおいて,提案手法は3次元人間のポーズと軌道予測の両方において最先端の性能を達成する。
Predicting future human pose is a fundamental application for machine intelligence, which drives robots to plan their behavior and paths ahead of time to seamlessly accomplish human-robot collaboration in real-world 3D scenarios. Despite encouraging results, existing approaches rarely consider the effects of the external scene on the motion sequence, leading to pronounced artifacts and physical implausibilities in the predictions. To address this limitation, this work introduces a novel multi-modal sense-informed motion prediction approach, which conditions high-fidelity generation on two modal information: external 3D scene, and internal human gaze, and is able to recognize their salience for future human activity. Furthermore, the gaze information is regarded as the human intention, and combined with both motion and scene features, we construct a ternary intention-aware attention to supervise the generation to match where the human wants to reach. Meanwhile, we introduce semantic coherence-aware attention to explicitly distinguish the salient point clouds and the underlying ones, to ensure a reasonable interaction of the generated sequence with the 3D scene. On two real-world benchmarks, the proposed method achieves state-of-the-art performance both in 3D human pose and trajectory prediction. | 翻訳日:2024-05-07 17:50:42 公開日:2024-05-05 |
# 半確率パッチサンプリングによる肺癌WSIの高速TIL推定
Fast TILs estimation in lung cancer WSIs based on semi-stochastic patch sampling ( http://arxiv.org/abs/2405.02913v1 ) ライセンス: Link先を確認 | Nikita Shvetsov, Anders Sildnes, Lill-Tove Rasmussen Busund, Stig Dalen, Kajsa Møllersen, Lars Ailo Bongo, Thomas K. Kilvaer, | (参考訳) 非小細胞肺癌 (NSCLC) における腫瘍浸潤リンパ球 (TIL) の定量化は, 癌治療における正確な予後指標の必要性に対処する上で重要な課題である。
スライド画像全体 (WSI) における手動TIL定量化は困難であり, ばらつきに悩まされ, 患者の予後を損なう可能性がある。
本研究では,半確率的パッチサンプリングを用いた自動パイプライン,確率的パッチ保持のためのパッチ分類,TIL評価プロセスの合理化を目的としたHoVer-Netモデルを用いたセル定量化を提案する。
このパイプラインは、予後に関係のない領域の約70%を効率よく排除し、予後の精度を維持するために残りのパッチの5%しか必要としない(c-index 0.65 +- 0.01)。
TILsスコアと従来のCD8 IHCスコア法を超越した患者生存率との強い相関が示されるように、計算効率は予後の精度を犠牲にしない。
パイプラインはNSCLCの予後と治療のパーソナライゼーションを高める可能性を示しているが、総合的な臨床検証は依然として必要である。
今後の研究は、その幅広い臨床的有用性を検証すること、およびNSCLC予後を改善するために追加のバイオマーカーを調査することに焦点を当てるべきである。
Addressing the critical need for accurate prognostic biomarkers in cancer treatment, quantifying tumor-infiltrating lymphocytes (TILs) in non-small cell lung cancer (NSCLC) presents considerable challenges. Manual TIL quantification in whole slide images (WSIs) is laborious and subject to variability, potentially undermining patient outcomes. Our study introduces an automated pipeline that utilizes semi-stochastic patch sampling, patch classification to retain prognostically relevant patches, and cell quantification using the HoVer-Net model to streamline the TIL evaluation process. This pipeline efficiently excludes approximately 70% of areas not relevant for prognosis and requires only 5% of the remaining patches to maintain prognostic accuracy (c-index 0.65 +- 0.01). The computational efficiency achieved does not sacrifice prognostic accuracy, as demonstrated by the TILs score's strong correlation with patient survival, which surpasses traditional CD8 IHC scoring methods. While the pipeline demonstrates potential for enhancing NSCLC prognostication and personalization of treatment, comprehensive clinical validation is still required. Future research should focus on verifying its broader clinical utility and investigating additional biomarkers to improve NSCLC prognosis. | 翻訳日:2024-05-07 17:50:42 公開日:2024-05-05 |
# fm空間におけるディラック核殻のスピノル量子状態
Spinor quantum states of the Dirac's core/shell at fm-space ( http://arxiv.org/abs/2405.02916v1 ) ライセンス: Link先を確認 | Sami Ortakaya, | (参考訳) 本研究では,球状コア/シェル系におけるテンソル効果下でのディラック粒子の挙動モデルを提案する。
量子球の中心領域における約1.0 fmの空間に局在する粒子に対応するエネルギー準位の変化を,井戸幅で検討した。
また、2つの異なるレベルが同じ質量の粒子状態に付随するという解析解から生じる。
さらに、反粒子型状態を引き起こす異常な挙動を示す溶液は重い質量で発生する。
In this study, we present a model for the behavior of Dirac particles under the tensor effect in the spherical core/shell regime. We examine the change of energy levels corresponding to the particles localized in a space of approximately 1.0 fm in the core region of the quantum sphere, with the well width. It also occurs from the analytical solutions that the two different levels accompany particle states of the same mass. Additionally, the solutions exhibiting anomalous behavior, giving rise to antiparticle-type states, occur at heavier mass. | 翻訳日:2024-05-07 17:50:42 公開日:2024-05-05 |
# 過信が鍵となる:大規模言語と視覚言語モデルにおける言語的不確実性評価
Overconfidence is Key: Verbalized Uncertainty Evaluation in Large Language and Vision-Language Models ( http://arxiv.org/abs/2405.02917v1 ) ライセンス: Link先を確認 | Tobias Groot, Matias Valdenegro-Toro, | (参考訳) 言語と視覚言語モデル(LLMs/VLMs)は、人間のようなテキストを生成し、画像を理解する能力によってAIの分野に革命をもたらしたが、信頼性の確保は不可欠である。
本稿では,LLM (GPT4, GPT-3.5, LLaMA2, PaLM2) と VLM (GPT4V, Gemini Pro Vision) の言語的不確実性を評価することを目的とした。
本稿では,難解なクエリやオブジェクトカウントによるVLM機能テストを目的とした日本語不確定シーン(JUS)データセットと,誤校正の方向を測定するNet Calibration Error(NCE)を提案する。
その結果, LLM と VLM は高い校正誤差を有し, 多くの場合, 過度に信頼されていることが判明し, 不確実性推定能力の低下が示唆された。
さらに、回帰タスクのプロンプトを開発し、平均/標準偏差と95%の信頼区間を生成する場合、VLMはキャリブレーションが不十分であることを示す。
Language and Vision-Language Models (LLMs/VLMs) have revolutionized the field of AI by their ability to generate human-like text and understand images, but ensuring their reliability is crucial. This paper aims to evaluate the ability of LLMs (GPT4, GPT-3.5, LLaMA2, and PaLM 2) and VLMs (GPT4V and Gemini Pro Vision) to estimate their verbalized uncertainty via prompting. We propose the new Japanese Uncertain Scenes (JUS) dataset, aimed at testing VLM capabilities via difficult queries and object counting, and the Net Calibration Error (NCE) to measure direction of miscalibration. Results show that both LLMs and VLMs have a high calibration error and are overconfident most of the time, indicating a poor capability for uncertainty estimation. Additionally we develop prompts for regression tasks, and we show that VLMs have poor calibration when producing mean/standard deviation and 95% confidence intervals. | 翻訳日:2024-05-07 17:40:45 公開日:2024-05-05 |
# MERIT: 信頼性・解釈性肝線維症ステーティングのための多視点エビデンシャルラーニング
MERIT: Multi-view Evidential learning for Reliable and Interpretable liver fibrosis sTaging ( http://arxiv.org/abs/2405.02918v1 ) ライセンス: Link先を確認 | Yuanye Liu, Zheyao Gao, Nannan Shi, Fuping Wu, Yuxin Shi, Qingchao Chen, Xiahai Zhuang, | (参考訳) MRI(MRI)による肝線維症の正確な経過観察は臨床的に重要である。
従来の手法は特定のサブリージョンにフォーカスすることが多いが、マルチビュー学習は複数のパッチを同時に分析することでより多くの情報を取得する。
しかし、従来のマルチビューアプローチは本質的に不確実性を計算することができず、一般にブラックボックス方式で異なるビューの特徴を統合するため、信頼性と結果のモデルの解釈性が向上する。
本研究では,MERITと呼ばれる顕在的学習に基づく新しいマルチビュー手法を提案する。
MERITは、予測の不確実な定量化を可能にし、信頼性を高め、論理ベースの組み合わせルールを用いて解釈性を向上させる。
具体的には、MERITは主観論理理論の指導の下で、各サブビューからの予測を、定量化された不確実性のある意見としてモデル化する。
さらに、特にクラス分散シフトを含むシナリオにおいて、性能を高めるために、分散対応ベースレートを導入している。
最後に、MERITは機能固有の組み合わせルールを採用し、多視点予測を明示的に融合させ、解釈可能性を高める。
その結果、提案したMERITの有効性を示し、信頼性を強調し、アドホックとポストホックの両方の解釈性を提供する。
彼らはまた、MERITが肝線維症のステージングにおける決定過程における各ビューの重要性を解明できることを示した。
Accurate staging of liver fibrosis from magnetic resonance imaging (MRI) is crucial in clinical practice. While conventional methods often focus on a specific sub-region, multi-view learning captures more information by analyzing multiple patches simultaneously. However, previous multi-view approaches could not typically calculate uncertainty by nature, and they generally integrate features from different views in a black-box fashion, hence compromising reliability as well as interpretability of the resulting models. In this work, we propose a new multi-view method based on evidential learning, referred to as MERIT, which tackles the two challenges in a unified framework. MERIT enables uncertainty quantification of the predictions to enhance reliability, and employs a logic-based combination rule to improve interpretability. Specifically, MERIT models the prediction from each sub-view as an opinion with quantified uncertainty under the guidance of the subjective logic theory. Furthermore, a distribution-aware base rate is introduced to enhance performance, particularly in scenarios involving class distribution shifts. Finally, MERIT adopts a feature-specific combination rule to explicitly fuse multi-view predictions, thereby enhancing interpretability. Results have showcased the effectiveness of the proposed MERIT, highlighting the reliability and offering both ad-hoc and post-hoc interpretability. They also illustrate that MERIT can elucidate the significance of each view in the decision-making process for liver fibrosis staging. | 翻訳日:2024-05-07 17:40:45 公開日:2024-05-05 |
# ハードよりも簡単: テスト失敗のシンプルなベースラインが予測の原因になる
Easy over Hard: A Simple Baseline for Test Failures Causes Prediction ( http://arxiv.org/abs/2405.02922v1 ) ライセンス: Link先を確認 | Zhipeng Gao, Zhipeng Xue, Xing Hu, Weiyi Shang, Xin Xia, | (参考訳) テスト失敗の原因となる分析は、さまざまなタイプのバグを扱うためのその後の方法を決定するためであり、バグを適切に分析し、修正することが必須である。
テストケースが失敗した後、ソフトウェアテスタは、その根本原因を特定するために、テスト実行ログを1行ずつ検査しなければならない。
しかし、手動の根本原因決定は退屈で時間を要することが多く、問題を修正するのに30~40%の時間を要する可能性がある。
したがって、ソフトウェアテスタの負担を軽減するために、テスト失敗の原因を自動的に予測する必要がある。
本論文では,テストログの故障原因を自動的に識別するために,NCCheckerというシンプルだが強靭な手法を提案する。
当社のアプローチは、開発者がテスト失敗の原因を効率的に特定し、調査の根本原因を示す最も可能性の高いログ行にフラグを付けるのに役立ちます。
当社のアプローチには,ログの抽象化,ルックアップテーブルの構築,障害発生予測という,3つの主要なステージがあります。
まず、構造化されていないログメッセージを構造化されたログイベントに解析するためにログ抽象化を実行します。
NCCheckerは、異なるログイベントとテスト失敗原因のマッチングスコアを記録するヒューリスティックなルールを使用して、自動的にルックアップテーブルをメンテナンスし、更新します。
フェール原因予測段階では、新たに生成されたフェールテストログに対して、NCCheckerは、ルックアップテーブルから関連するログイベントのスコアをチェックすることで、そのフェール理由を簡単に推測することができる。
我々は,10K以上のテストログを持つ実世界の産業データセット上で,プロトタイプを開発し,ツールの評価を行った。
大規模な実験は、ベンチマークのセットよりも、我々のモデルの有望な性能を示している。
さらに,本手法は高効率でメモリ節約が可能であり,データ不均衡問題への対処にも有効である。
The test failure causes analysis is critical since it determines the subsequent way of handling different types of bugs, which is the prerequisite to get the bugs properly analyzed and fixed. After a test case fails, software testers have to inspect the test execution logs line by line to identify its root cause. However, manual root cause determination is often tedious and time-consuming, which can cost 30-40% of the time needed to fix a problem. Therefore, there is a need for automatically predicting the test failure causes to lighten the burden of software testers. In this paper, we present a simple but hard-to-beat approach, named NCChecker to automatically identify the failure causes for failed test logs. Our approach can help developers efficiently identify the test failure causes, and flag the most probable log lines of indicating the root causes for investigation. Our approach has three main stages: log abstraction, lookup table construction, and failure causes prediction. We first perform log abstraction to parse the unstructured log messages into structured log events. NCChecker then automatically maintains and updates a lookup table via employing our heuristic rules, which record the matching score between different log events and test failure causes. When it comes to the failure cause prediction stage, for a newly generated failed test log, NCChecker can easily infer its failed reason by checking out the associated log events' scores from the lookup table. We have developed a prototype and evaluated our tool on a real-world industrial dataset with more than 10K test logs. The extensive experiments show the promising performance of our model over a set of benchmarks. Moreover, our approach is highly efficient and memory-saving, and can successfully handle the data imbalance problem. | 翻訳日:2024-05-07 17:40:45 公開日:2024-05-05 |
# マルチインテントNLUのための2段階予測型コントラスト学習フレームワーク
A Two-Stage Prediction-Aware Contrastive Learning Framework for Multi-Intent NLU ( http://arxiv.org/abs/2405.02925v1 ) ライセンス: Link先を確認 | Guanhua Chen, Yutong Yao, Derek F. Wong, Lidia S. Chao, | (参考訳) NLU(Multi-intent Natural Language Understanding)は、単一発話における複数の意図から生じるモデルの混乱によって、非常に難しい課題を提示する。
以前の研究では、異なるマルチインテントラベル間のマージンを増やすためにモデルを対照的に訓練したが、それはマルチインテントNLUのニュアンスにはあまり適していない。
共有インテント間の豊富な情報は無視され、特に低データシナリオにおいて、より良い埋め込みスペースを構築するのに有益である。
我々は、この貴重な知識を活用するために、マルチインテリジェントNLUのための2段階予測認識コントラスト学習(PACL)フレームワークを導入する。
提案手法は,単語レベルの事前学習と予測対応のコントラスト微調整を組み合わせることで,共有意図情報に重きを置いている。
単語レベルのデータ拡張戦略を用いて事前学習データセットを構築する。
提案フレームワークは,コントラスト学習の影響を最大化するために,予測認識型コントラスト損失を導入しながら,コントラスト微調整中のインスタンスに動的にロールを割り当てる。
本稿では,3つの広く使用されているデータセットに対して実験結果と実験分析を行い,本手法が低データシナリオとフルデータシナリオの両方において,3つの顕著なベースラインの性能を上回ることを示す。
Multi-intent natural language understanding (NLU) presents a formidable challenge due to the model confusion arising from multiple intents within a single utterance. While previous works train the model contrastively to increase the margin between different multi-intent labels, they are less suited to the nuances of multi-intent NLU. They ignore the rich information between the shared intents, which is beneficial to constructing a better embedding space, especially in low-data scenarios. We introduce a two-stage Prediction-Aware Contrastive Learning (PACL) framework for multi-intent NLU to harness this valuable knowledge. Our approach capitalizes on shared intent information by integrating word-level pre-training and prediction-aware contrastive fine-tuning. We construct a pre-training dataset using a word-level data augmentation strategy. Subsequently, our framework dynamically assigns roles to instances during contrastive fine-tuning while introducing a prediction-aware contrastive loss to maximize the impact of contrastive learning. We present experimental results and empirical analysis conducted on three widely used datasets, demonstrating that our method surpasses the performance of three prominent baselines on both low-data and full-data scenarios. | 翻訳日:2024-05-07 17:40:45 公開日:2024-05-05 |
# 個別学習モデルより優れた統一型ダイナミックスキャンパス予測器
Unified Dynamic Scanpath Predictors Outperform Individually Trained Models ( http://arxiv.org/abs/2405.02929v1 ) ライセンス: Link先を確認 | Fares Abawi, Di Fu, Stefan Wermter, | (参考訳) スキャンパス予測に関するこれまでの研究は、主にグループモデルに焦点を当てており、スキャンパスと個人の注意行動が多様であるという事実を無視している。
ロボットはヒューリスティックスや事前に定義されたパターンに基づいて人間の視線をエミュレートする。
しかしながら、ヒトの視線パターンは異質であり、様々な行動はそのような人間とロボットの相互作用の結果に大きな影響を及ぼす。
このギャップを埋めるため、私たちは、ビデオ中のスキャンパスを予測するために、給与予測のためのディープラーニングベースのソーシャルキュー統合モデルを開発した。
本モデルでは、ゲーティング機構とシーケンシャルアテンションを通じて、修正履歴と社会的手がかりを再帰的に統合することでスキャンパスを学習した。
我々は,自由視聴条件下で観察された動的社会シーンの視線データセットに対するアプローチを評価した。
私たちのモデルに固定履歴を導入することで、各スキャンパスに対して個々のモデルをトレーニングするリソース集約的なアプローチではなく、単一の統一モデルをトレーニングすることが可能になります。
我々は、ニューラルネットワークの後期アプローチが、同じ分布を持つ小さなデータセットと比較して、大規模なデータセット上でのトレーニングモデルにおいて、初期の融合よりも優れていることを観察した。
結果は、観察者のすべてのスキャンパスに基づいて訓練された単一の統一モデルが、個別に訓練されたモデルよりも同等以上のパフォーマンスを示すことも示している。
この結果は、モデルに普遍的な注意を喚起するグループサリエンシ表現の結果であり、一方、監督信号は、パーソナライズされた注意行動を学ぶよう誘導し、統一モデルが普遍的な注意の暗黙的な表現のために個々のモデルに対して利益を与える。
Previous research on scanpath prediction has mainly focused on group models, disregarding the fact that the scanpaths and attentional behaviors of individuals are diverse. The disregard of these differences is especially detrimental to social human-robot interaction, whereby robots commonly emulate human gaze based on heuristics or predefined patterns. However, human gaze patterns are heterogeneous and varying behaviors can significantly affect the outcomes of such human-robot interactions. To fill this gap, we developed a deep learning-based social cue integration model for saliency prediction to instead predict scanpaths in videos. Our model learned scanpaths by recursively integrating fixation history and social cues through a gating mechanism and sequential attention. We evaluated our approach on gaze datasets of dynamic social scenes, observed under the free-viewing condition. The introduction of fixation history into our models makes it possible to train a single unified model rather than the resource-intensive approach of training individual models for each set of scanpaths. We observed that the late neural integration approach surpasses early fusion when training models on a large dataset, in comparison to a smaller dataset with a similar distribution. Results also indicate that a single unified model, trained on all the observers' scanpaths, performs on par or better than individually trained models. We hypothesize that this outcome is a result of the group saliency representations instilling universal attention in the model, while the supervisory signal guides it to learn personalized attentional behaviors, providing the unified model a benefit over individual models due to its implicit representation of universal attention. | 翻訳日:2024-05-07 17:40:45 公開日:2024-05-05 |
# Relay Decoding: 機械翻訳のための大規模言語モデルの統合
Relay Decoding: Concatenating Large Language Models for Machine Translation ( http://arxiv.org/abs/2405.02933v1 ) ライセンス: Link先を確認 | Chengpeng Fu, Xiaocheng Feng, Yichong Huang, Wenshuai Huo, Baohang Li, Hui Wang, Bin Qin, Ting Liu, | (参考訳) 機械翻訳に大規模な言語モデルを活用することは、有望な結果を示している。
しかし、機械翻訳においてソース言語とターゲット言語の両方を扱う能力を持つには、大きな言語モデルが必要である。
望まれる言語をサポートする大規模なモデルを見つけるのが難しい場合、継続的学習の手法に頼ることは、コストがかかる作業になります。
これらのコストを軽減するために,ソースとターゲット言語を個別にサポートする2つの異なる大規模モデルを連結するRD(Relay Decoding)という革新的な手法を提案する。
これら2つのモデル間の接続を容易にするための単純なマッピング層を導入し、訓練に限られた並列データを活用することにより、機械翻訳タスクにおいて優れた結果が得られた。
提案手法の有効性を検証するために,Multi30kおよびWikiMatrixデータセットを用いて実験を行った。
Leveraging large language models for machine translation has demonstrated promising results. However, it does require the large language models to possess the capability of handling both the source and target languages in machine translation. When it is challenging to find large models that support the desired languages, resorting to continuous learning methods becomes a costly endeavor. To mitigate these expenses, we propose an innovative approach called RD (Relay Decoding), which entails concatenating two distinct large models that individually support the source and target languages. By incorporating a simple mapping layer to facilitate the connection between these two models and utilizing a limited amount of parallel data for training, we successfully achieve superior results in the machine translation task. Experimental results conducted on the Multi30k and WikiMatrix datasets validate the effectiveness of our proposed method. | 翻訳日:2024-05-07 17:40:45 公開日:2024-05-05 |
# 患者のナラティブの統合による患者側疾患の予測
Enabling Patient-side Disease Prediction via the Integration of Patient Narratives ( http://arxiv.org/abs/2405.02935v1 ) ライセンス: Link先を確認 | Zhixiang Su, Yinan Zhang, Jiazheng Jing, Jie Xiao, Zhiqi Shen, | (参考訳) 病気の予測は、早期介入の促進と効果的な予防対策の実施において重要な役割を担っているため、現代医療においてかなりの重要性を持っている。
しかし、最近の病気予測アプローチは、検査結果(例えば、血液検査、X線からの医療画像など)に大きく依存している。
正確な疾患予測のためにそのようなデータにアクセスすることは、患者の立場から見れば複雑な作業であり、常に患者の後の相談でのみ利用可能である。
患者側から病気の予測を可能にするために,テキスト記述や人口統計情報を含む患者健康物語を用いた疾患の予測を行うPersonalized Medical Disease Prediction (PoMP)を提案する。
PoMPを適用することで、患者は自分の症状をより明確に理解し、適切な医療専門家を直接探すことを可能にし、適切な医師を見つけるために医療コミュニケーションをナビゲートするのに費やす時間を短縮することができる。
我々は,Hodfの現実世界データを用いて,PoMPの有効性を示す広範囲な実験を行った。
Disease prediction holds considerable significance in modern healthcare, because of its crucial role in facilitating early intervention and implementing effective prevention measures. However, most recent disease prediction approaches heavily rely on laboratory test outcomes (e.g., blood tests and medical imaging from X-rays). Gaining access to such data for precise disease prediction is often a complex task from the standpoint of a patient and is always only available post-patient consultation. To make disease prediction available from patient-side, we propose Personalized Medical Disease Prediction (PoMP), which predicts diseases using patient health narratives including textual descriptions and demographic information. By applying PoMP, patients can gain a clearer comprehension of their conditions, empowering them to directly seek appropriate medical specialists and thereby reducing the time spent navigating healthcare communication to locate suitable doctors. We conducted extensive experiments using real-world data from Haodf to showcase the effectiveness of PoMP. | 翻訳日:2024-05-07 17:40:45 公開日:2024-05-05 |
# マルコフ分布下におけるSHAP説明のトラクタビリティについて
On the tractability of SHAP explanations under Markovian distributions ( http://arxiv.org/abs/2405.02936v1 ) ライセンス: Link先を確認 | Reda Marzouk, Colin de La Higuera, | (参考訳) そのしっかりとした理論的な基盤のおかげで、SHAPフレームワークは間違いなくMLモデルの局所的な説明可能性のための最も広く使われているフレームワークの1つである。
その人気にもかかわらず、その正確な計算は非常に困難であることが知られ、様々な構成においてNP-Hardであることが証明されている。
近年の研究では、決定木、無作為林、ブール回路のクラスを含む、特定のモデルファミリーに対するSHAPスコアの計算に関して、肯定的な複雑性の結果が明らかにされている。
しかし、これらの肯定的な結果は、機能独立の仮定を暗示しており、現実のシナリオでは多くの場合、単純である。
本稿では,この仮定を緩和し,マルコフ視点を導入することで,SHAPスコアの計算複雑性を考察する。
マルコフの仮定では、重み付きオートマトン、解離DNF、決定木に対するSHAPスコアの計算は多項式時間で行うことができ、特徴独立仮定の限界を超越するSHAPスコア計算の問題に対して、最初の正の複雑性結果を提供する。
Thanks to its solid theoretical foundation, the SHAP framework is arguably one the most widely utilized frameworks for local explainability of ML models. Despite its popularity, its exact computation is known to be very challenging, proven to be NP-Hard in various configurations. Recent works have unveiled positive complexity results regarding the computation of the SHAP score for specific model families, encompassing decision trees, random forests, and some classes of boolean circuits. Yet, all these positive results hinge on the assumption of feature independence, often simplistic in real-world scenarios. In this article, we investigate the computational complexity of the SHAP score by relaxing this assumption and introducing a Markovian perspective. We show that, under the Markovian assumption, computing the SHAP score for the class of Weighted automata, Disjoint DNFs and Decision Trees can be performed in polynomial time, offering a first positive complexity result for the problem of SHAP score computation that transcends the limitations of the feature independence assumption. | 翻訳日:2024-05-07 17:40:45 公開日:2024-05-05 |
# バングラ自然言語推論のための変圧器モデルによる大規模言語モデルの優位性の解明 : 総合的研究
Unraveling the Dominance of Large Language Models Over Transformer Models for Bangla Natural Language Inference: A Comprehensive Study ( http://arxiv.org/abs/2405.02937v1 ) ライセンス: Link先を確認 | Fatema Tuj Johora Faria, Mukaffi Bin Moin, Asif Iftekher Fahim, Pronay Debnath, Faisal Muhammad Shah, | (参考訳) 自然言語推論(英: Natural Language Inference, NLI)は、自然言語処理(英: Natural Language Processing, NLP)の基盤であり、テキストペアリング間の関係に関する洞察を提供する。
自然言語理解(NLU)の重要な要素であり、音声や文字による対話から情報を抽出する能力を示す。
NLIは主に、前提と仮説として知られる2つの文の間の包含関係を決定することに関心がある。
前提が仮説を論理的に意味すると、対は `entailment'' とラベル付けされる。
仮説が前提と矛盾する場合、対は `cortradiction'' ラベルを受け取る。
接続を確立するのに不十分な証拠がある場合、このペアは `neutral'' と記述される。
LLM(Large Language Models)が様々なタスクで成功したにもかかわらず、NLIにおけるその有効性は、低リソース領域の精度、モデルの過信、人間の判断の不一致を捉えることの難しさといった問題によって制約されている。
本研究では,ベンガル語などの低リソース言語におけるLLMの評価について検討した。
本研究では,ベンガルのNLPタスクにおける顕著なLLMとSOTA(State-of-the-art)モデルの性能評価を行い,自然言語推論に着目した。
XNLIデータセットを利用することで、GPT-3.5 TurboやGemini 1.5 ProのようなLCMとBanglaBERT、Bangla BERT Base、DistilBERT、mBERT、SahajBERTといったモデルを比較し、ゼロショットと少数ショットの評価を行う。
我々の研究は, ベンガル語のような質素な資源を持つ言語において, LLMの理解を深めるためには, 微調整SOTAモデルに匹敵する, あるいは優れた性能を達成できることを示唆している。
本研究は,多様な言語文脈におけるLLM能力の探求への継続的な取り組みの重要性を浮き彫りにするものである。
Natural Language Inference (NLI) is a cornerstone of Natural Language Processing (NLP), providing insights into the entailment relationships between text pairings. It is a critical component of Natural Language Understanding (NLU), demonstrating the ability to extract information from spoken or written interactions. NLI is mainly concerned with determining the entailment relationship between two statements, known as the premise and hypothesis. When the premise logically implies the hypothesis, the pair is labeled ``entailment''. If the hypothesis contradicts the premise, the pair receives the ``contradiction'' label. When there is insufficient evidence to establish a connection, the pair is described as ``neutral''. Despite the success of Large Language Models (LLMs) in various tasks, their effectiveness in NLI remains constrained by issues like low-resource domain accuracy, model overconfidence, and difficulty in capturing human judgment disagreements. This study addresses the underexplored area of evaluating LLMs in low-resourced languages such as Bengali. Through a comprehensive evaluation, we assess the performance of prominent LLMs and state-of-the-art (SOTA) models in Bengali NLP tasks, focusing on natural language inference. Utilizing the XNLI dataset, we conduct zero-shot and few-shot evaluations, comparing LLMs like GPT-3.5 Turbo and Gemini 1.5 Pro with models such as BanglaBERT, Bangla BERT Base, DistilBERT, mBERT, and sahajBERT. Our findings reveal that while LLMs can achieve comparable or superior performance to fine-tuned SOTA models in few-shot scenarios, further research is necessary to enhance our understanding of LLMs in languages with modest resources like Bengali. This study underscores the importance of continued efforts in exploring LLM capabilities across diverse linguistic contexts. | 翻訳日:2024-05-07 17:40:45 公開日:2024-05-05 |
# 実効性エクストリーム再スケーリングのための境界対応非結合流網
Boundary-aware Decoupled Flow Networks for Realistic Extreme Rescaling ( http://arxiv.org/abs/2405.02941v1 ) ライセンス: Link先を確認 | Jinmin Li, Tao Dai, Jingyun Zhang, Kang Liu, Jun Wang, Shaoming Wang, Shu-Tao Xia, rizen guo, | (参考訳) Invertible rescaling Network (IRN) やgenerative adversarial Network (GAN) など,最近開発された生成手法は,画像再スケーリングにおいて例外的な性能を示した。
しかし、IRNベースの手法はオーバースムースな結果を生成する傾向があり、一方、GANベースの手法はフェイクの詳細を簡単に生成し、実際のアプリケーションを妨げる。
この問題に対処するため,現実的で視覚的に満足な結果を生成するために,境界対応デカップリングフローネットワーク(BDFlow)を提案する。
標準ガウス分布として高周波情報をモデル化する従来の手法とは異なり、我々のBDFlowはまず、その高周波情報を境界分布に従属する \textit{semantic high- frequency} とガウス分布に従属する \textit{non-semantic high- frequency} に分解する。
具体的には、意味的な高周波部分を正確に捉えるために、境界認識マスク(BAM)を用いて、モデルを制約してリッチテクスチャを生成する一方、非意味的な高周波部分はガウス分布からランダムにサンプリングされる。
特に、我々のBDFlowはPSNRを4.4ドルdB、SSIMを平均0.1ドル改善し、パラメータの74\%と計算の20\%しか利用していない。
コードはhttps://github.com/THU-Kingmin/BAFlow.comから入手できる。
Recently developed generative methods, including invertible rescaling network (IRN) based and generative adversarial network (GAN) based methods, have demonstrated exceptional performance in image rescaling. However, IRN-based methods tend to produce over-smoothed results, while GAN-based methods easily generate fake details, which thus hinders their real applications. To address this issue, we propose Boundary-aware Decoupled Flow Networks (BDFlow) to generate realistic and visually pleasing results. Unlike previous methods that model high-frequency information as standard Gaussian distribution directly, our BDFlow first decouples the high-frequency information into \textit{semantic high-frequency} that adheres to a Boundary distribution and \textit{non-semantic high-frequency} counterpart that adheres to a Gaussian distribution. Specifically, to capture semantic high-frequency parts accurately, we use Boundary-aware Mask (BAM) to constrain the model to produce rich textures, while non-semantic high-frequency part is randomly sampled from a Gaussian distribution.Comprehensive experiments demonstrate that our BDFlow significantly outperforms other state-of-the-art methods while maintaining lower complexity. Notably, our BDFlow improves the PSNR by $4.4$ dB and the SSIM by $0.1$ on average over GRAIN, utilizing only 74\% of the parameters and 20\% of the computation. The code will be available at https://github.com/THU-Kingmin/BAFlow. | 翻訳日:2024-05-07 17:40:45 公開日:2024-05-05 |
# ガラス塑性ハイブリッドパノラマ環状レンズの設計・解析・製造
Design, analysis, and manufacturing of a glass-plastic hybrid minimalist aspheric panoramic annular lens ( http://arxiv.org/abs/2405.02942v1 ) ライセンス: Link先を確認 | Shaohua Gao, Qi Jiang, Yiqi Liao, Yi Qiu, Wanglei Ying, Kailun Yang, Kaiwei Wang, Benhao Zhang, Jian Bai, | (参考訳) 本研究では, 従来のパノラマ環状レンズ (PAL) の大きなサイズ, 高重量, 複雑系のいくつかの限界を解決するために, 高性能なガラス-プラスチックハイブリッドパノラマ環状レンズ (ASPAL) を提案する。
ASPALの視野(FoV)は360{\deg}x(35{\deg}~110{\deg})であり、撮像品質は回折限界に近い。
この大きなFoV ASPALはわずか4つのレンズで構成されている。
さらに、レイトレーシング法を用いてPALの物理構造モデルを構築し、その物理パラメータがコンパクト度比に与える影響について検討する。
また, 角面の局所許容度を評価するために, ASPALに適した寛容解析法を提案する。
この分析法は, 環状表面の表面不規則性を効果的に解析し, ASPALの耐久性について明確なガイダンスを提供する。
高精度ガラス成形および射出成形による非球面レンズ製造技術により、我々は最終的に20個のASPALを小さなバッチで製造した。
ASPALのプロトタイプの重量はわずか8.5gである。
本フレームワークは, 知的セキュリティ, マイクロUAV, マイクロロボットなど, パノラマ系を宇宙に応用するための有望な知見を提供する。
We propose a high-performance glass-plastic hybrid minimalist aspheric panoramic annular lens (ASPAL) to solve several major limitations of the traditional panoramic annular lens (PAL), such as large size, high weight, and complex system. The field of view (FoV) of the ASPAL is 360{\deg}x(35{\deg}~110{\deg}) and the imaging quality is close to the diffraction limit. This large FoV ASPAL is composed of only 4 lenses. Moreover, we establish a physical structure model of PAL using the ray tracing method and study the influence of its physical parameters on compactness ratio. In addition, for the evaluation of local tolerances of annular surfaces, we propose a tolerance analysis method suitable for ASPAL. This analytical method can effectively analyze surface irregularities on annular surfaces and provide clear guidance on manufacturing tolerances for ASPAL. Benefiting from high-precision glass molding and injection molding aspheric lens manufacturing techniques, we finally manufactured 20 ASPALs in small batches. The weight of an ASPAL prototype is only 8.5 g. Our framework provides promising insights for the application of panoramic systems in space and weight-constrained environmental sensing scenarios such as intelligent security, micro-UAVs, and micro-robots. | 翻訳日:2024-05-07 17:40:45 公開日:2024-05-05 |
# 未知のフォワードモデルパラメータ下でのニューラルネットワークを用いた画像信号の復元
Imaging Signal Recovery Using Neural Network Priors Under Uncertain Forward Model Parameters ( http://arxiv.org/abs/2405.02944v1 ) ライセンス: Link先を確認 | Xiwen Chen, Wenhui Zhu, Peijie Qiu, Abolfazl Razi, | (参考訳) 逆イメージング問題(IIP)は様々な用途で発生し、圧縮された測定値から画像の再構成が主な目的である。
この問題は、複数の整合性のある解で過度に決定されるため、しばしば不適切である。
最良の解は本質的に、画像の空間性のような事前の知識や仮定に依存する。
さらに、ほとんどのIPの再構成プロセスは、完全には知られていない画像(前方モデル)のパラメータに大きく依存しており、測定装置は校正ドリフトを行う可能性がある。
フォワードモデルのこれらの不確実性は、フォワードモデルの仮定されたパラメータが実際のパラメータと完全に一致しない場合、不正確な再構成が通常起こるような重大な問題を引き起こす。
本研究は,既存の前方モデルパラメータの集合のコンテキスト下での正確な再構成に取り組むことに専念する。
本稿では、ニューラルネットワークを前に使用することによって、一般的なIPソリューションと互換性のある新しいモーメント・アグリゲーション(MA)フレームワークを提案する。
具体的には、ニューラルネットワークの更新時にフォワードモデルの全ての候補パラメータを同時に考慮し、信号の再構成を行う。
理論的には、既知のフォワードモデルパラメータの下での再構成に類似した複雑さを持つMAフレームワークの収束を実証する。
概念実証実験により,MNIST, X-ray, Glas, MoNusegなどの各種データセットに対するPSNRの差は0.17~1.94である。
このことは、不確実な前方モデルの下での再構築における我々の方法の有意義な可能性を浮き彫りにする。
Inverse imaging problems (IIPs) arise in various applications, with the main objective of reconstructing an image from its compressed measurements. This problem is often ill-posed for being under-determined with multiple interchangeably consistent solutions. The best solution inherently depends on prior knowledge or assumptions, such as the sparsity of the image. Furthermore, the reconstruction process for most IIPs relies significantly on the imaging (i.e. forward model) parameters, which might not be fully known, or the measurement device may undergo calibration drifts. These uncertainties in the forward model create substantial challenges, where inaccurate reconstructions usually happen when the postulated parameters of the forward model do not fully match the actual ones. In this work, we devoted to tackling accurate reconstruction under the context of a set of possible forward model parameters that exist. Here, we propose a novel Moment-Aggregation (MA) framework that is compatible with the popular IIP solution by using a neural network prior. Specifically, our method can reconstruct the signal by considering all candidate parameters of the forward model simultaneously during the update of the neural network. We theoretically demonstrate the convergence of the MA framework, which has a similar complexity with reconstruction under the known forward model parameters. Proof-of-concept experiments demonstrate that the proposed MA achieves performance comparable to the forward model with the known precise parameter in reconstruction across both compressive sensing and phase retrieval applications, with a PSNR gap of 0.17 to 1.94 over various datasets, including MNIST, X-ray, Glas, and MoNuseg. This highlights our method's significant potential in reconstruction under an uncertain forward model. | 翻訳日:2024-05-07 17:40:45 公開日:2024-05-05 |
# 可逆的残留再スケーリングモデル
Invertible Residual Rescaling Models ( http://arxiv.org/abs/2405.02945v1 ) ライセンス: Link先を確認 | Jinmin Li, Tao Dai, Yaohua Zha, Yilu Luo, Longfei Lu, Bin Chen, Zhi Wang, Shu-Tao Xia, Jingyun Zhang, | (参考訳) Invertible Rescaling Networks (IRNs)とその変種は、画像再スケーリングのような様々な画像処理タスクにおいて顕著な成果をみせた。
しかし、より深いネットワークを持つIRNは訓練が難しいため、IRNの表現能力が損なわれる。
この問題に対処するために,高解像度画像と高解像度画像とのビジェクションを特定の分布で学習することにより,画像再スケーリングのための可逆残留再スケーリングモデル(IRRM)を提案する。
具体的には、長いスキップ接続を持つResidual Downscaling Modules (RDM) を含むディープネットワークを構築するためのIRRMを提案する。
それぞれのRDMは、短い接続を持ついくつかのInvertible Residual Blocks (IRB) で構成されている。
このようにして、RDMは接続をスキップすることでリッチな低周波情報をバイパスし、画像から高周波情報を抽出することに集中させる。
大規模な実験により、IRRMは、パラメータや複雑さがはるかに少ない他の最先端の手法よりも、はるかに優れた性能を示します。
特に, IRRMは, 60 %パラメータと 50 % FLOPs しか使用せず, HCFlow と IRN でそれぞれ 0.3 dB 以上のPSNR ゲインを持つ。
コードはhttps://github.com/THU-Kingmin/IRRM.comから入手できる。
Invertible Rescaling Networks (IRNs) and their variants have witnessed remarkable achievements in various image processing tasks like image rescaling. However, we observe that IRNs with deeper networks are difficult to train, thus hindering the representational ability of IRNs. To address this issue, we propose Invertible Residual Rescaling Models (IRRM) for image rescaling by learning a bijection between a high-resolution image and its low-resolution counterpart with a specific distribution. Specifically, we propose IRRM to build a deep network, which contains several Residual Downscaling Modules (RDMs) with long skip connections. Each RDM consists of several Invertible Residual Blocks (IRBs) with short connections. In this way, RDM allows rich low-frequency information to be bypassed by skip connections and forces models to focus on extracting high-frequency information from the image. Extensive experiments show that our IRRM performs significantly better than other state-of-the-art methods with much fewer parameters and complexity. Particularly, our IRRM has respectively PSNR gains of at least 0.3 dB over HCFlow and IRN in the $\times 4$ rescaling while only using 60\% parameters and 50\% FLOPs. The code will be available at https://github.com/THU-Kingmin/IRRM. | 翻訳日:2024-05-07 17:40:45 公開日:2024-05-05 |
# パルス場に有限時間生成した対の縦モーメントスペクトル:振動は「リアル」である
Longitudinal Momentum Spectra of pair created in a pulsed field at finite times: Are Oscillations "Real" ( http://arxiv.org/abs/2405.02947v1 ) ライセンス: Link先を確認 | Deepak Sah, Manoranjan P. Singh, | (参考訳) 真空中からの電子-陽電子対の生成を,E(t) = E_0 sech^2(t/\tau)$,高さが$E_0$,幅が$\tau$で時間的に均一なパルス電場を用いて検討した。
Sahは最近、有限進化時間[9]の後にペア生成の問題について議論した。
このことは、対生成における粒子の即時出現と、動的量に対する進化方程式の解法を含む形式主義を使用する場合の中間時間における粒子の挙動に関する疑問を引き起こす。
この振る舞いについて一般的な説明をすることは可能ですか?
これらの問題に対処するために、1粒子時間依存のディラック方程式の正確な解を用いて運動量空間における$(e^+ e^-)$ペア生成の確率を解析的に計算し、その結果を量子力学理論(QKT)と比較する。
どちらのアプローチも、任意の瞬間に粒子運動量スペクトルを研究することができ、量子非平衡物理学に関する貴重な情報を明らかにすることができる。
生成粒子の縦運動スペクトル(LMS)を有限時間で解析する。
LMSの振動構造を観察する。
この有限時間での発振挙動は、粒子生成に関連する量子干渉効果をはっきりと示している。
どちらの手法も、LMSで観測された振動として、有限時間で量子干渉パターンを示すことに注意する必要がある。
このことから、これらの振動は過渡的な励起や基底に依存したシグネチャによるものではないことが分かる。
繰り返しになるが、両アプローチのLMSに見られる振動は人工物ではなく、重要な物理的関連性を持っていることを強調する。
We investigate the production of electron-positron pairs from the vacuum in a time-varying, spatially uniform pulsed electric field given by $E(t) = E_0 sech^2(t/\tau)$, with height of $E_0$ and width of $\tau$. Sah recently discussed the problem of pair production after a finite evolution time [9]. This raises questions about the instantaneous appearance of particles in pair production and their behavior at intermediate times when using a formalism that involves solving an evolution equation for a dynamical quantity. Is it possible to make general statements about this behavior? To address these questions, we analytically compute the probability of $(e^+ e^-)$ pair production in momentum space using the exact solution of the one-particle time-dependent Dirac equation, and we compare the result with quantum kinetic theory (QKT). Both approaches allow us to study the particle momentum spectrum at any instant in time and can potentially unveil valuable information regarding quantum non-equilibrium physics. We analyze both approaches' Longitudinal Momentum Spectrum (LMS) of the created particles at finite times. We observe oscillatory structure in the LMS. This oscillation behavior at finite time clearly illustrates the quantum interference effects associated with particle production. It is worth noting that both approaches exhibit quantum interference patterns at finite times, manifested as oscillations observed in the LMS. This reveals that these oscillations are not due to transient excitations and basis-dependent signatures. Again, we emphasize that the oscillations seen in the LMS from both approaches are not artifacts but possess significant physical relevance. | 翻訳日:2024-05-07 17:40:45 公開日:2024-05-05 |
# iSEARLE:ゼロショット合成画像検索のためのテキストインバージョンの改善
iSEARLE: Improving Textual Inversion for Zero-Shot Composed Image Retrieval ( http://arxiv.org/abs/2405.02951v1 ) ライセンス: Link先を確認 | Lorenzo Agnolucci, Alberto Baldrati, Marco Bertini, Alberto Del Bimbo, | (参考訳) 参照画像と相対キャプションからなるクエリが与えられた場合、CIR(Composted Image Retrieval)は、相対キャプションに指定された変更を組み込んだまま、参照画像と視覚的に類似したターゲット画像を検索することを目的としている。
労働集約的なラベル付きデータセットへの教師付き手法の依存は、その適用性を妨げている。
本研究では,ラベル付きトレーニングデータセットを必要とせずにCIRに対処する新たなタスクであるZero-Shot CIR(ZS-CIR)を導入する。
本稿では,iSEARLE (改良されたゼロショットコンポスEd imAge Retrieval with textuaL invErsion) という手法を提案する。
ZS-CIRの研究を促進するために,CIRCO(Composed Image Retrieval on Common Objects in context)と呼ばれるオープンドメインベンチマークデータセットを提案する。
実験結果は、iSEARLEが、FashionIQ、CIRR、提案されたCIRCOという3つの異なるCIRデータセットと、ドメイン変換とオブジェクト合成という2つの追加評価設定に対して、最先端のパフォーマンスが得られることを示している。
データセット、コード、モデルはhttps://github.com/miccunifi/SEARLE.comで公開されている。
Given a query consisting of a reference image and a relative caption, Composed Image Retrieval (CIR) aims to retrieve target images visually similar to the reference one while incorporating the changes specified in the relative caption. The reliance of supervised methods on labor-intensive manually labeled datasets hinders their broad applicability. In this work, we introduce a new task, Zero-Shot CIR (ZS-CIR), that addresses CIR without the need for a labeled training dataset. We propose an approach named iSEARLE (improved zero-Shot composEd imAge Retrieval with textuaL invErsion) that involves mapping the visual information of the reference image into a pseudo-word token in CLIP token embedding space and combining it with the relative caption. To foster research on ZS-CIR, we present an open-domain benchmarking dataset named CIRCO (Composed Image Retrieval on Common Objects in context), the first CIR dataset where each query is labeled with multiple ground truths and a semantic categorization. The experimental results illustrate that iSEARLE obtains state-of-the-art performance on three different CIR datasets -- FashionIQ, CIRR, and the proposed CIRCO -- and two additional evaluation settings, namely domain conversion and object composition. The dataset, the code, and the model are publicly available at https://github.com/miccunifi/SEARLE. | 翻訳日:2024-05-07 17:40:45 公開日:2024-05-05 |
# 非侵入的グラディエント型メタソリューションによるレガシー数値解の高速化
Accelerating Legacy Numerical Solvers by Non-intrusive Gradient-based Meta-solving ( http://arxiv.org/abs/2405.02952v1 ) ライセンス: Link先を確認 | Sohei Arisaka, Qianxiao Li, | (参考訳) 科学計算は科学的な発見と工学設計に欠かせないツールであり、その計算コストは常に実際の主要な関心事である。
科学計算を高速化するため、従来の数値計算手法のハイパーパラメータの選択に機械学習(特にメタラーニング)技術を使うことは有望なアプローチである。
この方向性には多くの提案があるが、その多くが自動微分可能な数値法を必要とする。
しかし、現実には、多くの実践的応用は、十分に確立されているが、自律的ではないレガシーコードに依存しており、実践者が自身の問題に最先端の研究を適用するのを妨げている。
そこで本研究では,機械学習と従来の数値コードを組み合わせた非侵入的手法を提案する。
提案手法が他のベースラインよりも優れていることを理論的・数値的に示すとともに、広く使われているオープンソースの数値ソフトウェアライブラリPETScに実装された、確立された非自動微分可能な数値解法を高速化する応用について述べる。
Scientific computing is an essential tool for scientific discovery and engineering design, and its computational cost is always a main concern in practice. To accelerate scientific computing, it is a promising approach to use machine learning (especially meta-learning) techniques for selecting hyperparameters of traditional numerical methods. There have been numerous proposals to this direction, but many of them require automatic-differentiable numerical methods. However, in reality, many practical applications still depend on well-established but non-automatic-differentiable legacy codes, which prevents practitioners from applying the state-of-the-art research to their own problems. To resolve this problem, we propose a non-intrusive methodology with a novel gradient estimation technique to combine machine learning and legacy numerical codes without any modification. We theoretically and numerically show the advantage of the proposed method over other baselines and present applications of accelerating established non-automatic-differentiable numerical solvers implemented in PETSc, a widely used open-source numerical software library. | 翻訳日:2024-05-07 17:30:59 公開日:2024-05-05 |
# 逆サロゲートアルゴリズムによる同定規則の解析
Analysis of the Identifying Regulation with Adversarial Surrogates Algorithm ( http://arxiv.org/abs/2405.02953v1 ) ライセンス: Link先を確認 | Ron Teichner, Ron Meir, Michael Margaliot, | (参考訳) 力学系 z[k], k=1 の雑音測定出力の時系列を与えられた。
.N, Identifying Regulation with Adversarial Surrogates (IRAS) アルゴリズムは、全ての i,j に対して g(z[i]) = g(z[j]) となるようなスカラー関数 g() を非自明な第一積分とする。
IRASは最近提案され、生物学や物理学のモデルにおけるいくつかの学習タスクでうまく使われてきた。
ここでは、このアルゴリズムの厳密な分析を、特定の設定で行う。
観測は線形第一積分を許容し、ガウス雑音によって汚染されていると仮定する。
この場合、IRASの反復は、一般化されたレイリー商化問題を解くための自己整合体(SCF)の反復と密接に関連していることを示す。
このアプローチを用いることで、IRASを正しい第1積分に局所収束させることを保証するいくつかの十分な条件を導出する。
Given a time-series of noisy measured outputs of a dynamical system z[k], k=1...N, the Identifying Regulation with Adversarial Surrogates (IRAS) algorithm aims to find a non-trivial first integral of the system, namely, a scalar function g() such that g(z[i]) = g(z[j]), for all i,j. IRAS has been suggested recently and was used successfully in several learning tasks in models from biology and physics. Here, we give the first rigorous analysis of this algorithm in a specific setting. We assume that the observations admit a linear first integral and that they are contaminated by Gaussian noise. We show that in this case the IRAS iterations are closely related to the self-consistent-field (SCF) iterations for solving a generalized Rayleigh quotient minimization problem. Using this approach, we derive several sufficient conditions guaranteeing local convergence of IRAS to the correct first integral. | 翻訳日:2024-05-07 17:30:59 公開日:2024-05-05 |
# ヴィジュアルとヴィジュアルランゲージによるソースフリードメイン適応
Source-Free Domain Adaptation Guided by Vision and Vision-Language Pre-Training ( http://arxiv.org/abs/2405.02954v1 ) ライセンス: Link先を確認 | Wenyu Zhang, Li Shen, Chuan-Sheng Foo, | (参考訳) ソースフリードメイン適応(SFDA)は、完全にラベル付けされたソースドメインでトレーニングされたソースモデルを、関連するがラベル付けされていないターゲットドメインに適応させることを目的としている。
ソースモデルは、ターゲットの擬似ラベルを取得するための重要な手段であるが、生成された擬似ラベルは、ソースバイアスを示す可能性がある。
従来のSFDAパイプラインでは、ソーストレーニング開始時にソースモデルを初期化するために、大規模なデータ(eg ImageNet)事前訓練された特徴抽出器が使用され、その後破棄される。
一般化に重要な多様な特徴があるにもかかわらず、事前訓練された特徴抽出器は、ソーストレーニング中にソースデータ分布に過度に適合し、関連する対象ドメイン知識を忘れることができる。
この貴重な知識を捨てるのではなく、トレーニング済みネットワークを対象適応プロセスに組み込む統合フレームワークを導入する。
提案するフレームワークは柔軟で,適応プロセスに最新の事前学習ネットワークを組み込むことで,より強力な表現学習能力を活用できる。
適応のために、ソースモデルと事前学習した特徴抽出器を介して、ターゲットの擬似ラベル品質を協調的に改善するコラーンアルゴリズムを提案する。
ゼロショット画像認識におけるビジョン言語モデルCLIPの最近の成功に基づいて、CLIPのゼロショット分類決定をさらに取り入れる拡張Co-learn++を提案する。
3つのベンチマークデータセットを評価し、オープンセット、部分セット、オープンパーティルSFDAのようなより難しいシナリオを含む。
実験の結果,提案手法は適応性能を向上し,既存のSFDA法とうまく統合できることが示唆された。
Source-free domain adaptation (SFDA) aims to adapt a source model trained on a fully-labeled source domain to a related but unlabeled target domain. While the source model is a key avenue for acquiring target pseudolabels, the generated pseudolabels may exhibit source bias. In the conventional SFDA pipeline, a large data (e.g. ImageNet) pre-trained feature extractor is used to initialize the source model at the start of source training, and subsequently discarded. Despite having diverse features important for generalization, the pre-trained feature extractor can overfit to the source data distribution during source training and forget relevant target domain knowledge. Rather than discarding this valuable knowledge, we introduce an integrated framework to incorporate pre-trained networks into the target adaptation process. The proposed framework is flexible and allows us to plug modern pre-trained networks into the adaptation process to leverage their stronger representation learning capabilities. For adaptation, we propose the Co-learn algorithm to improve target pseudolabel quality collaboratively through the source model and a pre-trained feature extractor. Building on the recent success of the vision-language model CLIP in zero-shot image recognition, we present an extension Co-learn++ to further incorporate CLIP's zero-shot classification decisions. We evaluate on 3 benchmark datasets and include more challenging scenarios such as open-set, partial-set and open-partial SFDA. Experimental results demonstrate that our proposed strategy improves adaptation performance and can be successfully integrated with existing SFDA methods. | 翻訳日:2024-05-07 17:30:59 公開日:2024-05-05 |
# タンタル系超電導導波管共振器の周波数変動問題軽減のための動インダクタンス最小化
Minimizing Kinetic Inductance in Tantalum-Based Superconducting Coplanar Waveguide Resonators for Alleviating Frequency Fluctuation Issues ( http://arxiv.org/abs/2405.02955v1 ) ライセンス: Link先を確認 | Dengfeng Li, Jingjing Hu, Yuan Li, Shuoming An, | (参考訳) 超伝導量子デバイスの製造の進歩は、低温での低表面酸化マイクロ波損失のため、タンタルを有望な材料として強調している。
しかし, タンタル膜はアルミニウムやニオブなどの材料に比べて, かなり大きな動力学的インダクタンスを示す。
膜厚の必然的な変化を考えると、この運動インダクタンスの増加は、超伝導コプラナー導波管(SCPW)共振器のような成分のかなりの周波数ばらつきとシフトをもたらす。
共振器周波数の高精度化は特に、超伝導量子情報プロセッサの帯域幅に制限のある共通のパーセルフィルタを共有する場合において重要である。
本稿では, 共振器の周波数変動を100以上低減し, 製造と設計の両面からこの課題に取り組む。
同時に、SCPW共振器の内部品質係数は高いレベルにとどまっている。
大型超伝導チップにおけるタンタルの有効利用の新たな道が開けた。
Advancements in the fabrication of superconducting quantum devices have highlighted tantalum as a promising material, owing to its low surface oxidation microwave loss at low temperatures. However, tantalum films exhibit significantly larger kinetic inductances compared to materials such as aluminum or niobium. Given the inevitable variations in film thickness, this increased kinetic inductance leads to considerable, uncontrolled frequency variances and shifts in components like superconducting coplanar waveguide (SCPW) resonators. Achieving high precision in resonator frequencies is crucial, particularly when multiple resonators share a common Purcell filter with limited bandwidth in superconducting quantum information processors. Here, we tackle this challenge from both fabrication and design perspectives, achieving a reduction in resonator frequency fluctuation by a factor of more than 100. Concurrently, the internal quality factor of the SCPW resonator remains at high level. Our findings open up new avenues for the enhanced utilization of tantalum in large-scale superconducting chips. | 翻訳日:2024-05-07 17:30:59 公開日:2024-05-05 |
# エージェント・インスティテュート : 進化可能な医療エージェントを持つ病院のシミュレーション
Agent Hospital: A Simulacrum of Hospital with Evolvable Medical Agents ( http://arxiv.org/abs/2405.02957v1 ) ライセンス: Link先を確認 | Junkai Li, Siyu Wang, Meng Zhang, Weitao Li, Yunghwei Lai, Xinhui Kang, Weizhi Ma, Yang Liu, | (参考訳) 本稿では, 治療過程全体をシミュレートした, エージェント病院という病院のシミュラクルを紹介する。
全ての患者、看護師、医師は、大きな言語モデル(LLM)を動力とする自律的なエージェントである。
私たちの中心的な目標は、医師がシラクラム内で病気を治療する方法を学ぶことを可能にすることです。
そこで我々はMedAgent-Zeroという手法を提案する。
シミュラクルムは、知識ベースとLLMに基づいて、疾患の発症と進行をシミュレートできるため、医師は、成功したケースと失敗したケースの両方から経験を蓄積し続けることができる。
シミュレーション実験により, 医師の処理性能は, 様々な課題において一貫して改善されていることがわかった。
さらに興味深いことに、エージェント病院で医師が取得した知識は、実際の医療ベンチマークに適用できる。
約1万人の患者(現実の医師は2年以上かかるかもしれない)を治療した後、進化した医師は、主要な呼吸器疾患をカバーするMedQAデータセットのサブセットで93.06%の最先端の精度を達成した。
この研究は、医学的シナリオにおけるLSMを利用したエージェント技術の進歩の道を開くものである。
In this paper, we introduce a simulacrum of hospital called Agent Hospital that simulates the entire process of treating illness. All patients, nurses, and doctors are autonomous agents powered by large language models (LLMs). Our central goal is to enable a doctor agent to learn how to treat illness within the simulacrum. To do so, we propose a method called MedAgent-Zero. As the simulacrum can simulate disease onset and progression based on knowledge bases and LLMs, doctor agents can keep accumulating experience from both successful and unsuccessful cases. Simulation experiments show that the treatment performance of doctor agents consistently improves on various tasks. More interestingly, the knowledge the doctor agents have acquired in Agent Hospital is applicable to real-world medicare benchmarks. After treating around ten thousand patients (real-world doctors may take over two years), the evolved doctor agent achieves a state-of-the-art accuracy of 93.06% on a subset of the MedQA dataset that covers major respiratory diseases. This work paves the way for advancing the applications of LLM-powered agent techniques in medical scenarios. | 翻訳日:2024-05-07 17:30:59 公開日:2024-05-05 |
# MRI再構成のためのスコアベースモデル駆動ネットワーク
Score-based Generative Priors Guided Model-driven Network for MRI Reconstruction ( http://arxiv.org/abs/2405.02958v1 ) ライセンス: Link先を確認 | Xiaoyu Qiao, Weisheng Li, Yuping Huang, Lijian Yang, | (参考訳) Langevin dynamics (SMLD) 法とのスコアマッチングは, MRI の高速化に成功している。
しかし、サンプリングプロセスのハイパーパラメータは微妙なチューニングが必要であり、そうでなければ幻覚的アーティファクト、特にアウト・オブ・ディストリビューションテストデータによって結果を悪化させることができる。
本研究では,SMLDをモデル駆動型ネットワークトレーニングの先駆者と見なす新しいワークフローを提案する。
まず,予備指導画像(PGI)として,ネットワークリトレーニング,パラメータチューニング,分散テストデータを必要としない事前学習スコアネットワークを適用した。
PGIは幻覚アーチファクトによって破損するが、再建を容易にする効果的な妄想的なステップを通じて追加情報を提供できると信じている。
そこで本研究では,PGIの品質向上のために,第2ステップで denoising Module (DM) を設計した。
これらの特徴はLangevin Dynamicsのコンポーネントと、微調整で同じスコアネットワークから抽出されるため、アーティファクトパターンを直接学習することができる。
第3に、DGI(denoized PGIs)によるトレーニングを指導するモデル駆動ネットワークを設計した。
DGIは各カスケードの中間再構築と密接な関係があり、特徴を充実させ、より正確なガイダンスを提供するために定期的に更新される。
提案手法は,PGIの平均的品質が低いにもかかわらず,トレーニングデータやサンプリングステップを著しく減らした場合でも,ネットワークトレーニングのガイドとして有用な情報を効果的に抽出できることを示した。
本手法は,幻覚を効果的に緩和し,ロバストかつ高品質な再建結果を得られることにより,他の最先端技術よりも優れた性能を発揮する。
Score matching with Langevin dynamics (SMLD) method has been successfully applied to accelerated MRI. However, the hyperparameters in the sampling process require subtle tuning, otherwise the results can be severely corrupted by hallucination artifacts, particularly with out-of-distribution test data. In this study, we propose a novel workflow in which SMLD results are regarded as additional priors to guide model-driven network training. First, we adopted a pretrained score network to obtain samples as preliminary guidance images (PGI) without the need for network retraining, parameter tuning and in-distribution test data. Although PGIs are corrupted by hallucination artifacts, we believe that they can provide extra information through effective denoising steps to facilitate reconstruction. Therefore, we designed a denoising module (DM) in the second step to improve the quality of PGIs. The features are extracted from the components of Langevin dynamics and the same score network with fine-tuning; hence, we can directly learn the artifact patterns. Third, we designed a model-driven network whose training is guided by denoised PGIs (DGIs). DGIs are densely connected with intermediate reconstructions in each cascade to enrich the features and are periodically updated to provide more accurate guidance. Our experiments on different sequences revealed that despite the low average quality of PGIs, the proposed workflow can effectively extract valuable information to guide the network training, even with severely reduced training data and sampling steps. Our method outperforms other cutting-edge techniques by effectively mitigating hallucination artifacts, yielding robust and high-quality reconstruction results. | 翻訳日:2024-05-07 17:30:59 公開日:2024-05-05 |
# JOSENet:サーベイランスビデオにおけるバイオレンス検出のためのジョイントストリーム埋め込みネットワーク
JOSENet: A Joint Stream Embedding Network for Violence Detection in Surveillance Videos ( http://arxiv.org/abs/2405.02961v1 ) ライセンス: Link先を確認 | Pietro Nardelli, Danilo Comminiello, | (参考訳) ビデオ監視カメラの普及と犯罪防止の必要性の高まりにより、暴力検出タスクは研究コミュニティから注目を集めている。
他の行動認識タスクに関しては、監視ビデオにおける暴力検出は、様々な実戦シーンの存在など、追加の問題を示している。
残念ながら、利用可能なデータセットは他のアクション認識データセットと比較して非常に小さいようだ。
さらに、監視アプリケーションでは、シーン内の人々は、常にビデオごとに異なり、ビデオの背景は、カメラごとに異なる。
また、リアルタイム監視ビデオにおける暴力行為は、望ましくない結果を防ぐために迅速に検出されなければならないため、モデルがメモリ使用量と計算コストの削減から確実に恩恵を受けるだろう。
このような問題により、古典的な行動認識手法の採用が困難になる。
これらの課題に対処するために、監視ビデオにおける暴力検出に優れたパフォーマンスを提供する、新しい自己監視フレームワークJOSENetを紹介した。
提案モデルは、RGBフレームと光フローという2つの時空間ビデオストリームを受け取り、ビデオのための新たな正規化された自己教師付き学習アプローチを含む。
JOSENetは、ビデオセグメントあたりのフレーム数の4分の1とフレームレートの削減を必要としながら、自己管理された最先端の手法に比べてパフォーマンスが向上する。
ソースコードと実験を再現する指示はhttps://github.com/ispamm/JOSENet.comで公開されている。
Due to the ever-increasing availability of video surveillance cameras and the growing need for crime prevention, the violence detection task is attracting greater attention from the research community. With respect to other action recognition tasks, violence detection in surveillance videos shows additional issues, such as the presence of a significant variety of real fight scenes. Unfortunately, available datasets seem to be very small compared with other action recognition datasets. Moreover, in surveillance applications, people in the scenes always differ for each video and the background of the footage differs for each camera. Also, violent actions in real-life surveillance videos must be detected quickly to prevent unwanted consequences, thus models would definitely benefit from a reduction in memory usage and computational costs. Such problems make classical action recognition methods difficult to be adopted. To tackle all these issues, we introduce JOSENet, a novel self-supervised framework that provides outstanding performance for violence detection in surveillance videos. The proposed model receives two spatiotemporal video streams, i.e., RGB frames and optical flows, and involves a new regularized self-supervised learning approach for videos. JOSENet provides improved performance compared to self-supervised state-of-the-art methods, while requiring one-fourth of the number of frames per video segment and a reduced frame rate. The source code and the instructions to reproduce our experiments are available at https://github.com/ispamm/JOSENet. | 翻訳日:2024-05-07 17:30:59 公開日:2024-05-05 |
# VectorPainter: ベクトル化ストロークを用いたスティル化ベクトルグラフ合成の新しいアプローチ
VectorPainter: A Novel Approach to Stylized Vector Graphics Synthesis with Vectorized Strokes ( http://arxiv.org/abs/2405.02962v1 ) ライセンス: Link先を確認 | Juncheng Hu, Ximing Xing, Zhengqi Zhang, Jing Zhang, Qian Yu, | (参考訳) 本稿では,ベクトルグラフ合成のための新しい手法であるVectorPainterを提案する。
テキストプロンプトと参照スタイルのイメージが与えられた後、VectorPainterは、コンテンツがテキストプロンプトと一致し、スタイルが参照イメージに忠実であるベクターグラフィックを生成する。
この課題の鍵は,ベクトルグラフィックスの本質的な特性を十分に活用することにある。
本稿では,参照画像から抽出したベクトル化ストロークの再配置として,スタイラス化過程を概念化する。
VectorPainterは最適化ベースのパイプラインを採用している。
まず、基準画像からベクトル化されたストロークを抽出し、合成プロセスを初期化する。
参照スタイルへの忠実性を確保するため、新しいスタイル保存損失を導入する。
本手法が参照画像に忠実なままテキスト記述と整合できることを示すため,大規模な実験が実施されている。
We propose a novel method, VectorPainter, for the task of stylized vector graphics synthesis. Given a text prompt and a reference style image, VectorPainter generates a vector graphic that aligns in content with the text prompt and remains faithful in style to the reference image. We recognize that the key to this task lies in fully leveraging the intrinsic properties of vector graphics. Innovatively, we conceptualize the stylization process as the rearrangement of vectorized strokes extracted from the reference image. VectorPainter employs an optimization-based pipeline. It begins by extracting vectorized strokes from the reference image, which are then used to initialize the synthesis process. To ensure fidelity to the reference style, a novel style preservation loss is introduced. Extensive experiments have been conducted to demonstrate that our method is capable of aligning with the text description while remaining faithful to the reference image. | 翻訳日:2024-05-07 17:30:59 公開日:2024-05-05 |
# Power IoTにおけるデータ共有前のデータアプリケーションに対する予防監査
Preventive Audits for Data Applications Before Data Sharing in the Power IoT ( http://arxiv.org/abs/2405.02963v1 ) ライセンス: Link先を確認 | Bohong Wang, Qinglai Guo, Yanxi Lin, Yang Yu, | (参考訳) データボリュームの増加に伴い、特にIoT(Internet of Things)のパワーにおいて、より多くのタイプのデータが使用され、共有されている。
しかし、データ共有のプロセスは、異なるデータ間のユビキタスな関連性のため、予期せぬ情報漏洩につながる可能性があるため、データ所有者は、重要な情報漏洩のリスクを避けるために、データ共有の前にデータアプリケーションに対する予防監査を行う必要がある。
異なるアプリケーションシナリオにおいて、同じデータが完全に異なる役割を担う可能性があることを考慮すれば、データ所有者は、事前にデータ購入者の期待するデータアプリケーションを理解し、データ所有者のプライベート情報と関係がなく、データ購入者が必要とする非プライベート情報と関係のない修正データを提供する必要がある。
本稿では、電力IoTにおけるデータ共有を背景として、データとその暗黙情報の相互情報をデータ特徴パラメータとして選択し、データとその暗示情報との関係や、データから暗示情報を推測する能力を示す。
したがって、データ共有前後のデータ特徴パラメータの変化に基づいて予防監査を行う必要がある。
簡易消費下における予防監査の理論的基礎として確率交換調整法を提案し,それに対応する最適化モデルを構築し,多変量特性を持つより実用的なシナリオに拡張した。
最後に、ケーススタディを用いて、提案した予防監査の有効性を検証する。
With the increase in data volume, more types of data are being used and shared, especially in the power Internet of Things (IoT). However, the processes of data sharing may lead to unexpected information leakage because of the ubiquitous relevance among the different data, thus it is necessary for data owners to conduct preventive audits for data applications before data sharing to avoid the risk of key information leakage. Considering that the same data may play completely different roles in different application scenarios, data owners should know the expected data applications of the data buyers in advance and provide modified data that are less relevant to the private information of the data owners and more relevant to the nonprivate information that the data buyers need. In this paper, data sharing in the power IoT is regarded as the background, and the mutual information of the data and their implicit information is selected as the data feature parameter to indicate the relevance between the data and their implicit information or the ability to infer the implicit information from the data. Therefore, preventive audits should be conducted based on changes in the data feature parameters before and after data sharing. The probability exchange adjustment method is proposed as the theoretical basis of preventive audits under simplified consumption, and the corresponding optimization models are constructed and extended to more practical scenarios with multivariate characteristics. Finally, case studies are used to validate the effectiveness of the proposed preventive audits. | 翻訳日:2024-05-07 17:30:59 公開日:2024-05-05 |
# 一般化ベルシナリオにおけるベル非局所性とコチェン・スペクターの文脈性の間のトレードオフ関係
Trade-off relations between Bell nonlocality and local Kochen-Specker contextuality in generalized Bell scenarios ( http://arxiv.org/abs/2405.02964v1 ) ライセンス: Link先を確認 | Lucas E. A. Porto, Gabriel Ruffolo, Rafael Rabelo, Marcelo Terra Cunha, Pawel Kurzynski, | (参考訳) ベル非局所性とコチェン=スペクターの文脈性との関係は、過去数十年間、多くの異なる視点から研究の対象となっている。
最近、これらの関係に関する興味深い結果が、いわゆる一般化ベルのシナリオ、すなわち、ベル空間分離(またはエージェンシー独立)が実験の各ラウンドで互換性のある測定を行う(少なくとも1つの)当事者の能力と共存するシナリオで研究されている。
この党が$n$サイクルの適合性を持つとき、ベルの非局所性は、この党の局所実験において文脈性と一致して観測できないと最初に主張された。
しかし、局所性の定義をより自然に読むことで、ベル非局所性と局所文脈性の両方が、実際に共同で存在することが分かる。
それにもかかわらず、この研究において、これらの2つのリソースのそれぞれに任意の量が存在することは証明できない。
すなわち,ベル非局所性とそのようなシナリオにおける局所的文脈性との間のトレードオフ関係の存在を示す。
我々は、このトレードオフを不等式と定量化の両面から検討し、「グローバル」な文脈性の概念の観点からどのように理解できるかについて議論する。
さらに、そのような概念は局所的文脈性やベル非局所性だけでなく、他の非古典的相関形式も含んでいることを示す。
The relations between Bell nonlocality and Kochen-Specker contextuality have been subject of research from many different perspectives in the last decades. Recently, some interesting results on these relations have been explored in the so-called generalized Bell scenarios, that is, scenarios where Bell spatial separation (or agency independence) coexist with (at least one of the) parties' ability to perform compatible measurements at each round of the experiment. When this party has an $n$-cycle compatiblity setup, it was first claimed that Bell nonlocality could not be concomitantly observed with contextuality at this party's local experiment. However, by a more natural reading of the definition of locality, it turns out that both Bell nonlocality and local contextuality can, in fact, be jointly present. In spite of it, in this work we prove that there cannot be arbitrary amounts of both of these two resources together. That is, we show the existence of a trade-off relation between Bell nonlocality and local contextuality in such scenarios. We explore this trade-off both in terms of inequalities and quantifiers, and we discuss how it can be understood in terms of a `global' notion of contextuality. Furthermore, we show that such notion does not only encompass local contextuality and Bell nonlocality, but also other forms of nonclassical correlations. | 翻訳日:2024-05-07 17:30:59 公開日:2024-05-05 |
# 外部位置とクロック装置を持たないロバスト協調認識
Robust Collaborative Perception without External Localization and Clock Devices ( http://arxiv.org/abs/2405.02965v1 ) ライセンス: Link先を確認 | Zixing Lei, Zhenyang Ni, Ruize Han, Shuo Tang, Chen Feng, Siheng Chen, Yanfeng Wang, | (参考訳) 複数のエージェントをまたいだ一貫した空間的時間的調整は、エージェント間の情報交換を通じて知覚能力を向上させることを目的とした協調的知覚の基礎である。
この空間的時間的アライメントを実現するために、従来の手法は位置付けとクロック信号を提供する外部装置に依存している。
しかし、ハードウェアが生成する信号は、ノイズや潜在的に悪意のある攻撃に対して脆弱であり、空間的時間的アライメントの精度を損なう可能性がある。
外部ハードウェアに頼るのではなく、様々なエージェントの知覚データに内在する幾何学的パターンを認識して整列するという、新しいアプローチを提案する。
そこで本研究では,外部の局所化やクロックデバイスとは独立して動作する,堅牢な協調認識システムを提案する。
我々のシステムのキーモジュールである~\emph{FreeAlign}は、検出されたボックスに基づいて各エージェントに対して有能なオブジェクトグラフを構築し、グラフニューラルネットワークを用いてエージェント間の共通部分グラフを識別し、正確な相対的なポーズと時間を与える。
実世界とシミュレートされたデータセットの両方で \emph{FreeAlign} を検証する。
以上の結果から,ロバストな協調認識システムは,高精度な局所化とクロックデバイスに依存するシステムと相容れない性能を示した。
A consistent spatial-temporal coordination across multiple agents is fundamental for collaborative perception, which seeks to improve perception abilities through information exchange among agents. To achieve this spatial-temporal alignment, traditional methods depend on external devices to provide localization and clock signals. However, hardware-generated signals could be vulnerable to noise and potentially malicious attack, jeopardizing the precision of spatial-temporal alignment. Rather than relying on external hardwares, this work proposes a novel approach: aligning by recognizing the inherent geometric patterns within the perceptual data of various agents. Following this spirit, we propose a robust collaborative perception system that operates independently of external localization and clock devices. The key module of our system,~\emph{FreeAlign}, constructs a salient object graph for each agent based on its detected boxes and uses a graph neural network to identify common subgraphs between agents, leading to accurate relative pose and time. We validate \emph{FreeAlign} on both real-world and simulated datasets. The results show that, the ~\emph{FreeAlign} empowered robust collaborative perception system perform comparably to systems relying on precise localization and clock devices. | 翻訳日:2024-05-07 17:30:59 公開日:2024-05-05 |
# CoverLib: 反復問題分布被覆最大化によるドメイン調整型動作計画のための分類器付き体験ライブラリ
CoverLib: Classifiers-equipped Experience Library by Iterative Problem Distribution Coverage Maximization for Domain-tuned Motion Planning ( http://arxiv.org/abs/2405.02968v1 ) ライセンス: Link先を確認 | Hirokazu Ishida, Naoki Hiraoka, Kei Okada, Masayuki Inaba, | (参考訳) ライブラリベースの手法は、事前計算されたライブラリから取得した経験を適応させることにより、高速な動作計画に非常に効果的であることが知られている。
本稿では,このようなライブラリの構築と利用に関する原則的アプローチであるCoverLibについて述べる。
CoverLibはライブラリに経験分類器ペアを反復的に追加し、各分類器は問題空間内の経験の適応可能な領域に対応する。
この反復的プロセスは、未発見領域を効果的にカバーする能力に基づいて次の経験を選択するため、アクティブな手順である。
クエリフェーズでは、これらの分類器を使用して、与えられた問題に適応すると思われるエクスペリエンスを選択する。
実験により,CoverLibは,グローバル(サンプリングベース)法とローカル(最適化ベース)法で観測されるプランナビリティと速度のトレードオフを効果的に緩和することを示した。
その結果、問題領域よりも高速な計画と高い成功率を達成する。
さらに、適応アルゴリズムに依存しない性質のため、CoverLibは非線形プログラミングベースやサンプリングベースアルゴリズムを含む様々な適応手法とシームレスに統合される。
Library-based methods are known to be very effective for fast motion planning by adapting an experience retrieved from a precomputed library. This article presents CoverLib, a principled approach for constructing and utilizing such a library. CoverLib iteratively adds an experience-classifier-pair to the library, where each classifier corresponds to an adaptable region of the experience within the problem space. This iterative process is an active procedure, as it selects the next experience based on its ability to effectively cover the uncovered region. During the query phase, these classifiers are utilized to select an experience that is expected to be adaptable for a given problem. Experimental results demonstrate that CoverLib effectively mitigates the trade-off between plannability and speed observed in global (e.g. sampling-based) and local (e.g. optimization-based) methods. As a result, it achieves both fast planning and high success rates over the problem domain. Moreover, due to its adaptation-algorithm-agnostic nature, CoverLib seamlessly integrates with various adaptation methods, including nonlinear programming-based and sampling-based algorithms. | 翻訳日:2024-05-07 17:30:59 公開日:2024-05-05 |
# 分散DNNトレーニングエミュレーションへのフレキシブルかつ高忠実なアプローチに向けて
Towards a Flexible and High-Fidelity Approach to Distributed DNN Training Emulation ( http://arxiv.org/abs/2405.02969v1 ) ライセンス: Link先を確認 | Banruo Liu, Mubarak Adetunji Ojewale, Yuhan Ding, Marco Canini, | (参考訳) 我々は,DNNトレーニングワークロードをエミュレートするための,柔軟でユーザフレンドリで高忠実なアプローチであるNeuronaBoxを提案する。
我々は,性能を正確に観察するために,実ノードのサブセット上でトレーニングワークロードを実行し,ネットワーク化された実行環境と集合的な通信操作をエミュレートすることが可能であると主張している。
概念実証実装による最初の結果は、NeuronaBoxが実システムの動作を高精度に再現し、エミュレートされた測定値と実システムの誤差マージンが1%未満であることを示している。
We propose NeuronaBox, a flexible, user-friendly, and high-fidelity approach to emulate DNN training workloads. We argue that to accurately observe performance, it is possible to execute the training workload on a subset of real nodes and emulate the networked execution environment along with the collective communication operations. Initial results from a proof-of-concept implementation show that NeuronaBox replicates the behavior of actual systems with high accuracy, with an error margin of less than 1% between the emulated measurements and the real system. | 翻訳日:2024-05-07 17:30:59 公開日:2024-05-05 |
# 無線エッジネットワーク上でのマルチエージェントRLベース産業用AIGCサービスのオフロード
Multi-Agent RL-Based Industrial AIGC Service Offloading over Wireless Edge Networks ( http://arxiv.org/abs/2405.02972v1 ) ライセンス: Link先を確認 | Siyuan Li, Xi Lin, Hansong Xu, Kun Hua, Xiaomin Jin, Gaolei Li, Jianhua Li, | (参考訳) 現在、生成モデルは、IoT(Industrial Internet of Things)における異常サンプルの不足に対処するため、かなりの注目を集めている。
しかし、生成モデルのエッジ展開と、ジョイントエッジAI生成コンテンツ(AIGC)タスクの最適化については、課題が続いている。
本稿では,AIGCタスク実行のエッジ最適化に着目し,生成モデル駆動型産業用AIGC協調エッジ学習フレームワークであるGMELを提案する。
このフレームワークは、現実的なサンプル合成とエッジベースの最適化機能を活用することにより、効率的な数ショット学習を容易にすることを目的としている。
まず、エッジサーバ上での異種AIGCタスクの効率的な実行を保証するために、マルチタスクAIGC計算オフロードモデルを示す。
そこで本研究では,IoTシステム内のオフロードポリシを改良し,生成モデル駆動エッジ学習をサポートすることを目的とした,注意力強化型マルチエージェント強化学習(AMARL)アルゴリズムを提案する。
最後に,エッジベースAIGCタスク完了のシステム全体のレイテンシを最適化するアルゴリズムの有効性を実験的に検証した。
Currently, the generative model has garnered considerable attention due to its application in addressing the challenge of scarcity of abnormal samples in the industrial Internet of Things (IoT). However, challenges persist regarding the edge deployment of generative models and the optimization of joint edge AI-generated content (AIGC) tasks. In this paper, we focus on the edge optimization of AIGC task execution and propose GMEL, a generative model-driven industrial AIGC collaborative edge learning framework. This framework aims to facilitate efficient few-shot learning by leveraging realistic sample synthesis and edge-based optimization capabilities. First, a multi-task AIGC computational offloading model is presented to ensure the efficient execution of heterogeneous AIGC tasks on edge servers. Then, we propose an attention-enhanced multi-agent reinforcement learning (AMARL) algorithm aimed at refining offloading policies within the IoT system, thereby supporting generative model-driven edge learning. Finally, our experimental results demonstrate the effectiveness of the proposed algorithm in optimizing the total system latency of the edge-based AIGC task completion. | 翻訳日:2024-05-07 17:30:59 公開日:2024-05-05 |
# FairRelay:ペイメントチャネルネットワークによる公正で費用効率の良いピアツーピアコンテンツ配信
FairRelay: Fair and Cost-Efficient Peer-to-Peer Content Delivery through Payment Channel Networks ( http://arxiv.org/abs/2405.02973v1 ) ライセンス: Link先を確認 | Jingyu Liu, Yingjie Xue, Zifan Peng, Chao Lin, Xinyi Huang, | (参考訳) スケーラビリティとレジリエンスで有名なP2P(Peer-to-Peer)コンテンツ配信は、従来の集中型コンテンツ配信ネットワーク(CDN)に代わる、分散化された代替手段を提供する。
P2Pコンテンツ配信において重要な課題は、リレーの帯域幅への貢献に対する公正な補償である。
既存のソリューションでは、決済決済にブロックチェーンを使用しているが、オンチェーンのコストが高く、ネットワークの前提が単純化されているため、実用的ではない。
本稿では,複雑なコンテンツ配信ネットワークの設定において,すべての参加者が公平な報酬を得られるよう,公正かつ費用効率のよいプロトコルであるFairRelayを紹介する。
本稿では,全参加者がコンテンツ配信成功時の支払いを確実にする,新しいプリミティブであるEnforceable Accumulative Hashed TimeLock Contract (Enforceable A-HTLC)を導入する。
FairRelayの公平性はUniversal Composability (UC)フレームワークを用いて証明されている。
楽観的なシナリオでは、FairRelayはオンチェーンコストをゼロにしています。
悲観的なシナリオでは、ネットワークの複雑さに関係なく、リレーと顧客のオンチェーン競合コストは一定である。
具体的には、リレーと顧客のオンチェーン紛争費用は24,902ガス(オプティミズムL2)と290,797ガス(0.07USD)である。
10ホップのリレーパスでは、FairRelayは純粋なデータ転送に比べて1.5%以上のオーバヘッドを導入し、FairRelayの効率を示している。
Peer-to-Peer (P2P) content delivery, known for scalability and resilience, offers a decentralized alternative to traditional centralized Content Delivery Networks (CDNs). A significant challenge in P2P content delivery remains: the fair compensation of relayers for their bandwidth contributions. Existing solutions employ blockchains for payment settlements, however, they are not practical due to high on-chain costs and over-simplified network assumptions. In this paper, we introduce FairRelay, a fair and cost-efficient protocol that ensures all participants get fair payoff in complex content delivery network settings. We introduce a novel primitive, Enforceable Accumulative Hashed TimeLock Contract (Enforceable A-HTLC), designed to guarantee payment atomicity - ensuring all participants receive their payments upon successful content delivery. The fairness of FairRelay is proved using the Universal Composability (UC) framework. Our evaluation demonstrates that, in optimistic scenarios, FairRelay employs zero on-chain costs. In pessimistic scenarios, the on-chain dispute costs for relayers and customers are constant, irrespective of the network complexity. Specifically, empirical results indicate that the on-chain dispute costs for relayers and customers are 24,902 gas (equivalent to 0.01 USD on Optimism L2) and 290,797 gas (0.07 USD), respectively. In a 10-hop relay path, FairRelay introduces less than 1.5% additional overhead compared to pure data transmission, showcasing the efficiency of FairRelay. | 翻訳日:2024-05-07 17:30:59 公開日:2024-05-05 |
# SkelCap:スケルトンキーポイントシーケンスから記述テキストの自動生成
SkelCap: Automated Generation of Descriptive Text from Skeleton Keypoint Sequences ( http://arxiv.org/abs/2405.02977v1 ) ライセンス: Link先を確認 | Ali Emre Keskin, Hacer Yalim Keles, | (参考訳) 多くの手話データセットが存在するが、通常は世界中で使用されている何千もの記号の限定的な選択しかカバーしていない。
さらに、多様な手話データセットを作成することは、さまざまな手話のグループを集めることに伴うコストのため、高価で困難な作業である。
これらの課題に動機づけられた私たちは、これらの制限に対処するソリューションの開発を目指していました。
この文脈では、スケルトンキーポイント配列からの身体の動きをテキストで記述することに集中し、新しいデータセットの作成に繋がった。
我々はこのデータセットをトルコ手話データセットであるAUTSLを中心に構築した。
また,身体運動のテキスト記述を生成できるベースラインモデルであるSkelCapを開発した。
このモデルは、スケルトンキーポイントデータをベクトルとして処理し、埋め込みに完全に接続された層を適用し、シークエンス・ツー・シーケンス・モデリングにトランスフォーマー・ニューラルネットワークを利用する。
我々はシグナ・アグナ・アグナ・アグナ・アグナ・アグナ・アセスメントを含む広範囲な評価を行った。
ROUGE-Lスコアは0.98、BLEU-4スコアは0.94である。
私たちが準備したデータセット、すなわちAUTSL-SkelCapは、まもなく公開されます。
Numerous sign language datasets exist, yet they typically cover only a limited selection of the thousands of signs used globally. Moreover, creating diverse sign language datasets is an expensive and challenging task due to the costs associated with gathering a varied group of signers. Motivated by these challenges, we aimed to develop a solution that addresses these limitations. In this context, we focused on textually describing body movements from skeleton keypoint sequences, leading to the creation of a new dataset. We structured this dataset around AUTSL, a comprehensive isolated Turkish sign language dataset. We also developed a baseline model, SkelCap, which can generate textual descriptions of body movements. This model processes the skeleton keypoints data as a vector, applies a fully connected layer for embedding, and utilizes a transformer neural network for sequence-to-sequence modeling. We conducted extensive evaluations of our model, including signer-agnostic and sign-agnostic assessments. The model achieved promising results, with a ROUGE-L score of 0.98 and a BLEU-4 score of 0.94 in the signer-agnostic evaluation. The dataset we have prepared, namely the AUTSL-SkelCap, will be made publicly available soon. | 翻訳日:2024-05-07 15:33:57 公開日:2024-05-05 |
# 最小サプライズによる自己組織化構築
Self-Organized Construction by Minimal Surprise ( http://arxiv.org/abs/2405.02980v1 ) ライセンス: Link先を確認 | Tanja Katharina Kaiser, Heiko Hamann, | (参考訳) ロボットが望ましい行動を達成するためには、直接プログラムしたり、訓練したり、あるいはロボット自身が目標とする行動を望むような生まれつきのドライバーを与えることができる。
最小限の驚きのアプローチで、私たちはロボットに彼らの世界を予測可能にしたいという願望を植え込みます。
ここでは、集合構成に最小限のサプライズを適用する。
シミュレーションロボットは、2Dトーラスグリッドの世界でブロックを押します。
実験の2つのバリエーションでは、創発的な動作を許可するか、ロボットの期待される環境を事前に定義します。
いずれにせよ、ブロックを移動させて環境を構造化し、より予測しやすくするロボットの振る舞いを進化させる。
結果として得られるコントローラは、ロボットによる集合構成に適用することができる。
For the robots to achieve a desired behavior, we can program them directly, train them, or give them an innate driver that makes the robots themselves desire the targeted behavior. With the minimal surprise approach, we implant in our robots the desire to make their world predictable. Here, we apply minimal surprise to collective construction. Simulated robots push blocks in a 2D torus grid world. In two variants of our experiment we either allow for emergent behaviors or predefine the expected environment of the robots. In either way, we evolve robot behaviors that move blocks to structure their environment and make it more predictable. The resulting controllers can be applied in collective construction by robots. | 翻訳日:2024-05-07 15:33:57 公開日:2024-05-05 |
# 絵画と図面美学評価 : 多様な芸術カテゴリーを対象としたリッチ属性による評価
Paintings and Drawings Aesthetics Assessment with Rich Attributes for Various Artistic Categories ( http://arxiv.org/abs/2405.02982v1 ) ライセンス: Link先を確認 | Xin Jin, Qianqian Qiao, Yi Lu, Shan Gao, Heng Huang, Guangdong Li, | (参考訳) 画像美学評価はコンピュータビジョンの分野で非常に顕著な研究領域である。
近年,写真作品の美的品質を評価するためのデータセットやそれに対応する評価手法が普及しており,比較的成熟した研究環境の確立につながっている。
しかし、写真美学の広範な研究とは対照的に、絵画や図面の美学評価の分野は、2023年3月にBAIDデータセットが導入されるまで、あまり注目されていない。
このデータセットは、高品質な芸術画像の総合スコアのみで構成されている。
我々の研究は、絵画分野に特化された多属性多カテゴリデータセット(Aesthetics of Paintings and Drawings Dataset (APDD))の先駆的な導入である。
APDDの建設は世界中の28人のプロアーティストから活発に参加し、芸術分野を専門とする数十人の学生が参加した。
このデータセットは24の異なる芸術カテゴリーと10の異なる美的属性を含んでいる。
APDDの各画像は、芸術の分野で専門的に訓練された6人の専門家によって評価され、総美学スコアと美学属性スコアの両方が評価されている。
最終的なAPDDデータセットは、合計4985のイメージで構成され、アノテーション数は31100を超える。
同時に,混合属性アートデータセットの美的特性を評価するためにデザインされたアートアセスメント・ネットワーク・フォー・特定絵画スタイル(AANSPS)を提案する。
本研究の目的は,絵画や図面の美的評価の分野での進歩を触媒すると同時に,そのさらなる発展と応用のために利用可能な資源や方法論を充実させることである。
Image aesthetic evaluation is a highly prominent research domain in the field of computer vision. In recent years, there has been a proliferation of datasets and corresponding evaluation methodologies for assessing the aesthetic quality of photographic works, leading to the establishment of a relatively mature research environment. However, in contrast to the extensive research in photographic aesthetics, the field of aesthetic evaluation for paintings and Drawings has seen limited attention until the introduction of the BAID dataset in March 2023. This dataset solely comprises overall scores for high-quality artistic images. Our research marks the pioneering introduction of a multi-attribute, multi-category dataset specifically tailored to the field of painting: Aesthetics of Paintings and Drawings Dataset (APDD). The construction of APDD received active participation from 28 professional artists worldwide, along with dozens of students specializing in the field of art. This dataset encompasses 24 distinct artistic categories and 10 different aesthetic attributes. Each image in APDD has been evaluated by six professionally trained experts in the field of art, including assessments for both total aesthetic scores and aesthetic attribute scores. The final APDD dataset comprises a total of 4985 images, with an annotation count exceeding 31100 entries. Concurrently, we propose an innovative approach: Art Assessment Network for Specific Painting Styles (AANSPS), designed for the assessment of aesthetic attributes in mixed-attribute art datasets. Through this research, our goal is to catalyze advancements in the field of aesthetic evaluation for paintings and drawings, while enriching the available resources and methodologies for its further development and application. | 翻訳日:2024-05-07 15:33:57 公開日:2024-05-05 |
# E-TSL: ベースライン手法による連続的なトルコ手話データセット
E-TSL: A Continuous Educational Turkish Sign Language Dataset with Baseline Methods ( http://arxiv.org/abs/2405.02984v1 ) ライセンス: Link先を確認 | Şükrü Öztürk, Hacer Yalim Keles, | (参考訳) 本研究では,第5学年,第6学年,第8学年を対象に,オンライントルコ語授業から収集した連続教育トルコ手話データセットについて紹介する。
データセットは、合計24時間近くの1,410本のビデオで構成され、11人の署名者によるパフォーマンスを含んでいる。
特に64%がシングルトン語、85%がまれな単語で、5回未満の出現である。
P2T-T(Pose to Text Transformer)モデルとGNN-T(Graph Neural Network Based Transformer)モデルという2つのベースラインモデルを開発した。
GNN-Tは19.13%のBLEU-1スコアと3.28%のBLEU-4スコアを達成した。
P2T-TモデルはBLEUスコアでは若干低い性能を示したが、ROUGE-Lスコアは22.09%向上した。
さらに、よく知られたPHOENIX-Weather 2014Tデータセットを使ってモデルをベンチマークし、アプローチを検証する。
This study introduces the continuous Educational Turkish Sign Language (E-TSL) dataset, collected from online Turkish language lessons for 5th, 6th, and 8th grades. The dataset comprises 1,410 videos totaling nearly 24 hours and includes performances from 11 signers. Turkish, an agglutinative language, poses unique challenges for sign language translation, particularly with a vocabulary where 64% are singleton words and 85% are rare words, appearing less than five times. We developed two baseline models to address these challenges: the Pose to Text Transformer (P2T-T) and the Graph Neural Network based Transformer (GNN-T) models. The GNN-T model achieved 19.13% BLEU-1 score and 3.28% BLEU-4 score, presenting a significant challenge compared to existing benchmarks. The P2T-T model, while demonstrating slightly lower performance in BLEU scores, achieved a higher ROUGE-L score of 22.09%. Additionally, we benchmarked our model using the well-known PHOENIX-Weather 2014T dataset to validate our approach. | 翻訳日:2024-05-07 15:33:57 公開日:2024-05-05 |
# 大規模言語モデルはグレードにできるか? : K-12教育におけるLLMの短解答能力を評価する実証的研究
Can Large Language Models Make the Grade? An Empirical Study Evaluating LLMs Ability to Mark Short Answer Questions in K-12 Education ( http://arxiv.org/abs/2405.02985v1 ) ライセンス: Link先を確認 | Owen Henkel, Adam Boxer, Libby Hills, Bill Roberts, | (参考訳) 本稿では,大規模言語モデル(LLM)が短い回答質問に対してどの程度オープンテキスト応答をマークできるかを評価するための,新しいデータセットを用いた一連の実験について報告する。具体的には,GPTバージョンと,さまざまなドメイン領域(科学と歴史)とグレードレベル(5~16歳)にまたがって,実際の学生回答を短い回答にマーキングするための技術戦略の組み合わせがいかに優れているかを,クイズプラットフォームであるCarouselからの新しい未使用データセットを用いて検討する。
GPT-4は,基本的数発のプロンプト(Kappa,0.70)が良好に動作し,人間レベルのパフォーマンス(0.75)に非常に近いことが判明した。
この研究は、GPT-4が、専門家のラッカーと非常に近いパフォーマンスレベルで、短い回答読解質問を確実にスコアできるという以前の知見に基づいている。
人的レベルのパフォーマンスに近づき、様々な科目や学級にまたがって、LLMはK-12教育における低レベルの形式的アセスメントタスクを支援する貴重なツールであり、現実世界の教育提供に重要な意味を持つことを示唆している。
This paper presents reports on a series of experiments with a novel dataset evaluating how well Large Language Models (LLMs) can mark (i.e. grade) open text responses to short answer questions, Specifically, we explore how well different combinations of GPT version and prompt engineering strategies performed at marking real student answers to short answer across different domain areas (Science and History) and grade-levels (spanning ages 5-16) using a new, never-used-before dataset from Carousel, a quizzing platform. We found that GPT-4, with basic few-shot prompting performed well (Kappa, 0.70) and, importantly, very close to human-level performance (0.75). This research builds on prior findings that GPT-4 could reliably score short answer reading comprehension questions at a performance-level very close to that of expert human raters. The proximity to human-level performance, across a variety of subjects and grade levels suggests that LLMs could be a valuable tool for supporting low-stakes formative assessment tasks in K-12 education and has important implications for real-world education delivery. | 翻訳日:2024-05-07 15:33:57 公開日:2024-05-05 |
# 共同毒殺と侵入攻撃に対する防御 : DERMSを事例として
Defense against Joint Poison and Evasion Attacks: A Case Study of DERMS ( http://arxiv.org/abs/2405.02989v1 ) ライセンス: Link先を確認 | Zain ul Abdeen, Padmaksha Roy, Ahmad Al-Tawaha, Rouxi Jia, Laura Freeman, Peter Beling, Chen-Ching Liu, Alberto Sangiovanni-Vincentelli, Ming Jin, | (参考訳) 分散型エネルギー資源管理システム(DERMS)の展開は、現代の電力網を制御するための傾向が強まっている。
しかし、DERMSコントローラ通信ラインは、運用上の信頼性に影響を与える可能性のあるサイバー攻撃に対して脆弱である。
データ駆動型侵入検知システム(IDS)は、回避攻撃(evasion attack)としても知られるデプロイメント中に攻撃を妨害する可能性があるが、検出アルゴリズムのトレーニングは、データベースに注入された敵データ(中毒攻撃)によって損なわれる可能性がある。
本稿では,共同毒殺や脱獄攻撃に対して堅牢なIDSの第1の枠組みを提案する。
防御機構を2段階の最適化として定式化し、内部レベルと外部レベルがそれぞれ訓練時間と試験時間に発生する攻撃に対処する。
IEEE-13バスフィードモデルにおける本手法のロバスト性を検証する。
提案手法は,侵入検出の精度,精度,リコールにおいて,ベースライン手法よりも優れていることを示す。
There is an upward trend of deploying distributed energy resource management systems (DERMS) to control modern power grids. However, DERMS controller communication lines are vulnerable to cyberattacks that could potentially impact operational reliability. While a data-driven intrusion detection system (IDS) can potentially thwart attacks during deployment, also known as the evasion attack, the training of the detection algorithm may be corrupted by adversarial data injected into the database, also known as the poisoning attack. In this paper, we propose the first framework of IDS that is robust against joint poisoning and evasion attacks. We formulate the defense mechanism as a bilevel optimization, where the inner and outer levels deal with attacks that occur during training time and testing time, respectively. We verify the robustness of our method on the IEEE-13 bus feeder model against a diverse set of poisoning and evasion attack scenarios. The results indicate that our proposed method outperforms the baseline technique in terms of accuracy, precision, and recall for intrusion detection. | 翻訳日:2024-05-07 15:33:57 公開日:2024-05-05 |
# 量子通信用近赤外波長帯及び中赤外波長帯におけるNested Antiresonant Noless Hollow-Core光ファイバーの偏光純度と分散特性
Polarization Purity and Dispersion Characteristics of Nested Antiresonant Nodeless Hollow-Core Optical Fiber at Near- and Mid-IR Wavelengths for Quantum Communications ( http://arxiv.org/abs/2405.02993v1 ) ライセンス: Link先を確認 | Ivi Afxenti, Lijun Yu, Taylor Shields, Daniele Faccio, Thomas Bradley, Lucia Caspani, Matteo Clerici, Adetunmise C. Dada, | (参考訳) 量子通信とセンシングの進歩は、良好な状態の純度と損失の低減を保証するために、改良された光伝送を必要とする。
自由空間の光通信が好まれるが、ビームのばらつき、大気吸収、散乱、乱流などにより長距離での利用が困難になる。
偏光符号化の場合、従来のシリカコア光ファイバは、一般的に使われているが、応力誘起複屈折による状態純度維持に苦慮している。
ホローコアファイバ、特にネスト反共鳴ファイバ(NANF)は、近年、連続波(CW)レーザー光を用いて、テレコム波長範囲で最小の複屈折で非平行偏光純度を有することが示されている。
そこで本研究では,波長2-{\mu}m帯までの波長用に設計された1km NANFについて検討する。
以上の結果より,CW動作の1520nmから1620nmの範囲で約30dBと約70dBの偏光消滅率を示し,2-{\mu}m設計波長で最大で約60dBの偏光消滅率を示した。
我々の研究はパルス状態も含み、例えば2 {\mu}mのNANFにおける光のブロードバンド量子状態の伝播に関する以前のCW研究、およびQKDプロトコルの準備と絡み合いに基づく量子鍵分布(QKD)のための対応する絶滅率制限量子ビットエラーレート(QBER)に関する洞察を提供する。
我々の研究は、光量子技術の新たな標準に向けて、QKDのような新興アプリケーションにおけるこれらのファイバーの可能性を強調した。
Advancements in quantum communication and sensing require improved optical transmission that ensures excellent state purity and reduced losses. While free-space optical communication is often preferred, its use becomes challenging over long distances due to beam divergence, atmospheric absorption, scattering, and turbulence, among other factors. In the case of polarization encoding, traditional silica-core optical fibers, though commonly used, struggle with maintaining state purity due to stress-induced birefringence. Hollow core fibers, and in particular nested antiresonant fibers (NANF), have recently been shown to possess unparalleled polarization purity with minimal birefringence in the telecom wavelength range using continuous-wave (CW) laser light. Here, we investigate a 1-km NANF designed for wavelengths up to the 2-{\mu}m waveband. Our results show a polarization extinction ratio between ~-30 dB and ~-70 dB across the 1520 to 1620 nm range in CW operation, peaking at ~-60 dB at the 2-{\mu}m design wavelength. Our study also includes the pulsed regime, providing insights beyond previous CW studies, e.g., on the propagation of broadband quantum states of light in NANF at 2 {\mu}m, and corresponding extinction-ratio-limited quantum bit-error rates (QBER) for prepare-measure and entanglement-based quantum key distribution (QKD) protocols. Our findings highlight the potential of these fibers in emerging applications such as QKD, pointing towards a new standard in optical quantum technologies. | 翻訳日:2024-05-07 15:33:57 公開日:2024-05-05 |
# RepAugment: 呼吸音分類のための入力非依存表現レベル拡張
RepAugment: Input-Agnostic Representation-Level Augmentation for Respiratory Sound Classification ( http://arxiv.org/abs/2405.02996v1 ) ライセンス: Link先を確認 | June-Woo Kim, Miika Toikkanen, Sangmin Bae, Minseok Kim, Ho-Young Jung, | (参考訳) AIの最近の進歩は、医療アシスタントとしてのデプロイメントを民主化している。
大規模な視覚的・音声的データセットからの事前学習されたモデルは、このタスクに明らかに一般化されているが、意外なことに、事前訓練された音声モデルの研究は行われていない。
本稿では,プレトレーニング音声モデルの呼吸音分類への応用について検討する。
音声と肺の音響サンプルの間には特徴的ギャップがあり,このギャップを埋めるためには,データ拡張が不可欠である。
しかし、音声と音声の最も広く使われている拡張手法であるSpecAugmentは、2次元の分光図フォーマットを必要としており、音声波形で事前訓練されたモデルには適用できない。
そこで本研究では,SpecAugmentより優れた入力非依存表現レベルの拡張手法であるRepAugmentを提案する。
実験の結果,本手法はSpecAugmentよりも優れており,マイノリティー・コントラストの精度は7.14%に向上した。
Recent advancements in AI have democratized its deployment as a healthcare assistant. While pretrained models from large-scale visual and audio datasets have demonstrably generalized to this task, surprisingly, no studies have explored pretrained speech models, which, as human-originated sounds, intuitively would share closer resemblance to lung sounds. This paper explores the efficacy of pretrained speech models for respiratory sound classification. We find that there is a characterization gap between speech and lung sound samples, and to bridge this gap, data augmentation is essential. However, the most widely used augmentation technique for audio and speech, SpecAugment, requires 2-dimensional spectrogram format and cannot be applied to models pretrained on speech waveforms. To address this, we propose RepAugment, an input-agnostic representation-level augmentation technique that outperforms SpecAugment, but is also suitable for respiratory sound classification with waveform pretrained models. Experimental results show that our approach outperforms the SpecAugment, demonstrating a substantial improvement in the accuracy of minority disease classes, reaching up to 7.14%. | 翻訳日:2024-05-07 15:33:57 公開日:2024-05-05 |
# MedAdapter:医療推論に向けた大規模言語モデルの効率的なテスト時間適応
MedAdapter: Efficient Test-Time Adaptation of Large Language Models towards Medical Reasoning ( http://arxiv.org/abs/2405.03000v1 ) ライセンス: Link先を確認 | Wenqi Shi, Ran Xu, Yuchen Zhuang, Yue Yu, Hang Wu, Carl Yang, May D. Wang, | (参考訳) ジェネレーションと推論の能力が向上したにもかかわらず、大きな言語モデル(LLM)をバイオメディカル領域に適用することは、その巨大さと企業プライバシのために依然として困難である。
本研究では,LLMのバイオメディカル応用に向けたテスト時間適応のための統合されたポストホックアダプタであるMedAdapterを提案する。
LLM全体を微調整する代わりに、MedAdapterは小さなBERTサイズのアダプタだけを微調整することで、LLMが生成する候補ソリューションのランク付けを効果的に行う。
実験により、MedAdapterはホワイトボックスとブラックボックスの両方のLSMをバイオメディカル推論に効果的に適用し、それぞれ25.48%と11.31%の平均的なパフォーマンス向上を達成した。
MedAdapterは、既存のアダプティブメソッドに対するフレキシブルで補完的なソリューションを強調しながら、トレインタイムアダプティブと組み合わせることで、優れたパフォーマンスを得る。
モデルパフォーマンス、計算リソース、データプライバシのバランスをとるという課題に直面したMedAdapterは、バイオメディカルドメインにLLMを適用するための効率的で、プライバシ保護、コスト効率、透明なソリューションを提供する。
Despite their improved capabilities in generation and reasoning, adapting large language models (LLMs) to the biomedical domain remains challenging due to their immense size and corporate privacy. In this work, we propose MedAdapter, a unified post-hoc adapter for test-time adaptation of LLMs towards biomedical applications. Instead of fine-tuning the entire LLM, MedAdapter effectively adapts the original model by fine-tuning only a small BERT-sized adapter to rank candidate solutions generated by LLMs. Experiments demonstrate that MedAdapter effectively adapts both white-box and black-box LLMs in biomedical reasoning, achieving average performance improvements of 25.48% and 11.31%, respectively, without requiring extensive computational resources or sharing data with third parties. MedAdapter also yields superior performance when combined with train-time adaptation, highlighting a flexible and complementary solution to existing adaptation methods. Faced with the challenges of balancing model performance, computational resources, and data privacy, MedAdapter provides an efficient, privacy-preserving, cost-effective, and transparent solution for adapting LLMs to the biomedical domain. | 翻訳日:2024-05-07 15:33:57 公開日:2024-05-05 |
# 離散フーリエ変換を用いたパラメータ効率の良いファインチューニング
Parameter-Efficient Fine-Tuning with Discrete Fourier Transform ( http://arxiv.org/abs/2405.03003v1 ) ライセンス: Link先を確認 | Ziqi Gao, Qichao Wang, Aochuan Chen, Zijing Liu, Bingzhe Wu, Liang Chen, Jia Li, | (参考訳) ローランク適応~(LoRA)は近年、微調整基礎モデルに多くの関心を集めている。
低ランク行列を$A$と$B$とすることにより、トレーニング可能なパラメータの数を効果的に減らし、重量変化、すなわち$\Delta W=BA$を表現できる。
LoRAの進歩にもかかわらず、大規模なカスタマイズ適応やより大きなベースモデルを扱う場合、ストレージの課題に直面している。
本研究では、フーリエ変換の強力な表現性を享受し、トレーニング可能なパラメータをさらに圧縮することを目的とする。
具体的には、FourierFTを導入し、$\Delta W$を空間領域の行列として扱い、そのスペクトル係数のごく一部しか学習しない。
トレーニングされたスペクトル係数を用いて、逆離散フーリエ変換を実装し、$\Delta W$を復元する。
実験では,自然言語理解,自然言語生成,インストラクションチューニング,画像分類など,LoRAよりも少ないパラメータで同等あるいは優れた性能を示す。
例えば、LLaMA2-7Bモデルで命令チューニングを行う場合、FourierFTはLoRAの33.5Mと比較して、たった0.064Mのトレーニング可能なパラメータでLoRAを上回っている。
私たちのコードは \url{https://github.com/Chaos96/fourierft} でリリースされています。
Low-rank adaptation~(LoRA) has recently gained much interest in fine-tuning foundation models. It effectively reduces the number of trainable parameters by incorporating low-rank matrices $A$ and $B$ to represent the weight change, i.e., $\Delta W=BA$. Despite LoRA's progress, it faces storage challenges when handling extensive customization adaptations or larger base models. In this work, we aim to further compress trainable parameters by enjoying the powerful expressiveness of the Fourier transform. Specifically, we introduce FourierFT, which treats $\Delta W$ as a matrix in the spatial domain and learns only a small fraction of its spectral coefficients. With the trained spectral coefficients, we implement the inverse discrete Fourier transform to recover $\Delta W$. Empirically, our FourierFT method shows comparable or better performance with fewer parameters than LoRA on various tasks, including natural language understanding, natural language generation, instruction tuning, and image classification. For example, when performing instruction tuning on the LLaMA2-7B model, FourierFT surpasses LoRA with only 0.064M trainable parameters, compared to LoRA's 33.5M. Our code is released at \url{https://github.com/Chaos96/fourierft}. | 翻訳日:2024-05-07 15:33:57 公開日:2024-05-05 |
# マスキング言語モデルに基づく名前付きエンティティ認識における暗黙化の探索
Exploring prompts to elicit memorization in masked language model-based named entity recognition ( http://arxiv.org/abs/2405.03004v1 ) ライセンス: Link先を確認 | Yuxi Xia, Anastasiia Sedova, Pedro Henrique Luz de Araujo, Vasiliki Kougia, Lisa Nußbaumer, Benjamin Roth, | (参考訳) 言語モデルのトレーニングデータの記憶は、モデル能力(一般化)と安全性(プライバシリスク)に影響を与える。
本稿では、6つのマスキング言語モデルに基づく名前付きエンティティ認識モデルの暗記検出に対するプロンプトの影響を分析することに焦点を当てた。
具体的には,400個のプロンプトを自動生成する多種多様なセットと,各ペアがトレーニングセットから1人の名前と,そのセットから他の名前で構成されているペアワイズデータセットを用いる。
人物の名前で完了したプロンプトは、この名前を予測するモデルの信頼を得るための入力となる。
最後に、モデル記憶の迅速な検出性能を、モデルがトレーニングセットから名前に対する信頼性が高い名前対の割合で定量化する。
異なるプロンプトの性能は、同じモデル上で最大16ポイントまで変化し、エンジニアリングがさらにギャップを増すことを示す。
さらに,本実験では,迅速な性能はモデル依存であるが,異なる名前集合にまたがって一般化することを示した。
包括的な分析は、迅速なパフォーマンスが、プロンプト特性、トークンを含むこと、そしてプロンプトに対するモデルの自己注意重みによってどのように影響されるかを示している。
Training data memorization in language models impacts model capability (generalization) and safety (privacy risk). This paper focuses on analyzing prompts' impact on detecting the memorization of 6 masked language model-based named entity recognition models. Specifically, we employ a diverse set of 400 automatically generated prompts, and a pairwise dataset where each pair consists of one person's name from the training set and another name out of the set. A prompt completed with a person's name serves as input for getting the model's confidence in predicting this name. Finally, the prompt performance of detecting model memorization is quantified by the percentage of name pairs for which the model has higher confidence for the name from the training set. We show that the performance of different prompts varies by as much as 16 percentage points on the same model, and prompt engineering further increases the gap. Moreover, our experiments demonstrate that prompt performance is model-dependent but does generalize across different name sets. A comprehensive analysis indicates how prompt performance is influenced by prompt properties, contained tokens, and the model's self-attention weights on the prompt. | 翻訳日:2024-05-07 15:33:57 公開日:2024-05-05 |
# 非マルコフ的安全制約を学習した安全強化学習
Safe Reinforcement Learning with Learned Non-Markovian Safety Constraints ( http://arxiv.org/abs/2405.03005v1 ) ライセンス: Link先を確認 | Siow Meng Low, Akshat Kumar, | (参考訳) 安全強化学習(RL)では、安全コストは即時状態と行動に依存する関数として定義される。
実際には、国家表現の不完全性のため、安全制約はしばしば非マルコフ的であり、安全コストは知られていない。
したがって、安全ラベル(例えば、安全または安全でない)が状態行動軌跡と関連付けられているような一般的な設定に対処する。
まず、安全に関する部分的状態行動軌跡の貢献を評価するために、クレジット割当を特別に行う安全モデルを設計する。
この安全モデルはラベル付き安全データセットを使用して訓練される。
第二に、RL-as-inference戦略を用いて、学習された安全モデルを用いて安全なポリシーを最適化する効果的なアルゴリズムを導出する。
最後に,報酬の最大化と安全コンプライアンスのトレードオフ係数を動的に適用する手法を提案する。
制約付き最適化問題を双対問題に書き換え、トレーニング中のトレードオフ係数を動的に調整する勾配法を導出する。
我々の経験的結果は、このアプローチが高度にスケーラブルであり、洗練された非マルコフ的安全性制約を満たすことができることを示している。
In safe Reinforcement Learning (RL), safety cost is typically defined as a function dependent on the immediate state and actions. In practice, safety constraints can often be non-Markovian due to the insufficient fidelity of state representation, and safety cost may not be known. We therefore address a general setting where safety labels (e.g., safe or unsafe) are associated with state-action trajectories. Our key contributions are: first, we design a safety model that specifically performs credit assignment to assess contributions of partial state-action trajectories on safety. This safety model is trained using a labeled safety dataset. Second, using RL-as-inference strategy we derive an effective algorithm for optimizing a safe policy using the learned safety model. Finally, we devise a method to dynamically adapt the tradeoff coefficient between reward maximization and safety compliance. We rewrite the constrained optimization problem into its dual problem and derive a gradient-based method to dynamically adjust the tradeoff coefficient during training. Our empirical results demonstrate that this approach is highly scalable and able to satisfy sophisticated non-Markovian safety constraints. | 翻訳日:2024-05-07 15:33:57 公開日:2024-05-05 |
# 大型書誌データベースにおけるSDG分類の性能について
On the performativity of SDG classifications in large bibliometric databases ( http://arxiv.org/abs/2405.03007v1 ) ライセンス: Link先を確認 | Matteo Ottaviani, Stephan Stahlschmidt, | (参考訳) Web of Science、Scoops、OpenAlexなどの大規模な書誌データベースは、書誌分析を促進するが、科学的成果の可視化や、参加するエンティティのインパクト測定に影響を及ぼす。
近年、これらのデータベースは国連の持続可能な開発目標(SDG)をそれぞれの分類に取り入れており、その多様性が批判されている。
本研究は,5つのSDGを探索することにより,多種多様なSDG分類から書誌データに注入される「データバイアス」について,大規模言語モデル(LLM)の特徴を用いて学習することを提案する。
データベースのSDG分類に記述された多様なSDG分類によって並列に微調整されたLCMを構築する。
その結果, モデルアーキテクチャ, 分類された出版物, 微調整プロセス, 自然言語生成において高い感度が得られた。
異なるレベルでの広い仲裁性は、研究実践におけるLLMの使用に関する懸念を提起する。
Large bibliometric databases, such as Web of Science, Scopus, and OpenAlex, facilitate bibliometric analyses, but are performative, affecting the visibility of scientific outputs and the impact measurement of participating entities. Recently, these databases have taken up the UN's Sustainable Development Goals (SDGs) in their respective classifications, which have been criticised for their diverging nature. This work proposes using the feature of large language models (LLMs) to learn about the "data bias" injected by diverse SDG classifications into bibliometric data by exploring five SDGs. We build a LLM that is fine-tuned in parallel by the diverse SDG classifications inscribed into the databases' SDG classifications. Our results show high sensitivity in model architecture, classified publications, fine-tuning process, and natural language generation. The wide arbitrariness at different levels raises concerns about using LLM in research practice. | 翻訳日:2024-05-07 15:33:57 公開日:2024-05-05 |
# DVMSR:高効率高分解能ビジョンマンバ
DVMSR: Distillated Vision Mamba for Efficient Super-Resolution ( http://arxiv.org/abs/2405.03008v1 ) ライセンス: Link先を確認 | Xiaoyan Lei, Wenlong ZHang, Weifeng Cao, | (参考訳) 効率的な画像超解法(SR)は、性能を保ちながら計算複雑性とネットワークパラメータを最小化し、SRネットワークの推論を高速化することを目的としている。
既存の最先端画像超解法は畳み込みニューラルネットワークに基づいている。
Mambaは、その長距離モデリング能力と効率的な計算複雑性を活用するためにいくつかの試みがなされており、これはハイレベルな視覚タスクにおける印象的なパフォーマンスを示している。
本稿では,ビジョン・マンバと蒸留戦略を組み込んだ新しい軽量画像SRネットワークであるDVMSRを提案する。
DVMSRのネットワークは、特徴抽出畳み込み、複数のスタック化されたResidual State Space Blocks (RSSB)、再構築モジュールの3つのモジュールで構成されている。
具体的には、深部特徴抽出モジュールは、いくつかの残状態空間ブロック(RSSB)で構成され、それぞれが複数のViMM(Vision Mamba Moudles)と残接続を有する。
高い性能を保ちながら効率向上を図るため,我々はビジョン・マンバネットワークに蒸留戦略を適用した。
具体的には、教師ネットワークの豊かな表現知識を、軽量な学生ネットワークの出力のための追加の監督として活用する。
提案したDVMSRは,PSNRとSSIMの両方の性能を維持しつつ,モデルパラメータの観点から,最先端のSR手法より優れていることを示した。
ソースコードはhttps://github.com/nathan66666/DVMSR.gitで入手できる。
Efficient Image Super-Resolution (SR) aims to accelerate SR network inference by minimizing computational complexity and network parameters while preserving performance. Existing state-of-the-art Efficient Image Super-Resolution methods are based on convolutional neural networks. Few attempts have been made with Mamba to harness its long-range modeling capability and efficient computational complexity, which have shown impressive performance on high-level vision tasks. In this paper, we propose DVMSR, a novel lightweight Image SR network that incorporates Vision Mamba and a distillation strategy. The network of DVMSR consists of three modules: feature extraction convolution, multiple stacked Residual State Space Blocks (RSSBs), and a reconstruction module. Specifically, the deep feature extraction module is composed of several residual state space blocks (RSSB), each of which has several Vision Mamba Moudles(ViMM) together with a residual connection. To achieve efficiency improvement while maintaining comparable performance, we employ a distillation strategy to the vision Mamba network for superior performance. Specifically, we leverage the rich representation knowledge of teacher network as additional supervision for the output of lightweight student networks. Extensive experiments have demonstrated that our proposed DVMSR can outperform state-of-the-art efficient SR methods in terms of model parameters while maintaining the performance of both PSNR and SSIM. The source code is available at https://github.com/nathan66666/DVMSR.git | 翻訳日:2024-05-07 15:33:57 公開日:2024-05-05 |
# Talored Logic Explained Networks を用いた説明可能なマルウェア検出
Explainable Malware Detection with Tailored Logic Explained Networks ( http://arxiv.org/abs/2405.03009v1 ) ライセンス: Link先を確認 | Peter Anthony, Francesco Giannini, Michelangelo Diligenti, Martin Homola, Marco Gori, Stefan Balogh, Jan Mojzis, | (参考訳) マルウェア検出は、新しい攻撃技術が急速に発達しているため、サイバーセキュリティにおいて恒常的な課題である。
従来のシグネチャベースのアプローチは、大量のマルウェアサンプルとペースを維持するのに苦労している。
マシンラーニングは有望なソリューションを提供するが、見つからないサンプルへの一般化と、マルウェアとして特定されたインスタンスの説明の欠如という問題に直面している。
しかし、モデル決定の理解が信頼と法的遵守に不可欠である、セキュリティクリティカルな分野において、人間には理解できない説明が特に重要である。
ディープラーニングモデルはマルウェア検出に優れているが、ブラックボックスの性質は説明可能性を妨げる。
逆に、解釈可能なモデルは性能に欠けることが多い。
このアプリケーション領域におけるこのギャップを埋めるために、最近提案された解釈可能なニューラルネットワークのクラスであるLogic Explained Networks (LENs) を提案する。
本稿では,大規模なEMBERデータセットを用いて,マルウェア検出の複雑な領域へのLENの適用を拡大する。
実験結果から,従来の解釈可能な手法を超越し,ブラックボックスモデルに匹敵するロバスト性を実現することを示す。
さらに、モデルの予測に対して高い忠実度を持つ論理的説明を生成するために、LENの調整版を導入する。
Malware detection is a constant challenge in cybersecurity due to the rapid development of new attack techniques. Traditional signature-based approaches struggle to keep pace with the sheer volume of malware samples. Machine learning offers a promising solution, but faces issues of generalization to unseen samples and a lack of explanation for the instances identified as malware. However, human-understandable explanations are especially important in security-critical fields, where understanding model decisions is crucial for trust and legal compliance. While deep learning models excel at malware detection, their black-box nature hinders explainability. Conversely, interpretable models often fall short in performance. To bridge this gap in this application domain, we propose the use of Logic Explained Networks (LENs), which are a recently proposed class of interpretable neural networks providing explanations in the form of First-Order Logic (FOL) rules. This paper extends the application of LENs to the complex domain of malware detection, specifically using the large-scale EMBER dataset. In the experimental results we show that LENs achieve robustness that exceeds traditional interpretable methods and that are rivaling black-box models. Moreover, we introduce a tailored version of LENs that is shown to generate logic explanations with higher fidelity with respect to the model's predictions. | 翻訳日:2024-05-07 15:33:57 公開日:2024-05-05 |
# Evidence-based Medicine における時間的批判的勧告のための高次推論
High Order Reasoning for Time Critical Recommendation in Evidence-based Medicine ( http://arxiv.org/abs/2405.03010v1 ) ライセンス: Link先を確認 | Manjiang Yu, Xue Li, | (参考訳) タイムクリティカルな決定では、人間の意思決定者はAI対応の状況認識ソフトウェアと対話して、多くの緊急かつ可能なシナリオを評価し、数十億の事実を検索し、数兆のパラメータに基づいて1秒で異なる結果を見積もることができる。
高次推論では、推論の前提や前提条件に挑戦するために「What-if」質問、推論に適用される方法に挑戦するために「Why-not」質問、決定の目的に挑戦するために「so-what」質問、メソッドの適用性に挑戦するために「how-about」質問を用いることができる。
上記の高次の推論質問が人間の意思決定を支援するために適用されると、人間は時間的決定を行い、偽陰性または偽陽性のタイプのエラーを避けるのに役立つ。
本稿では,ICUの応用に向けて,エビデンスベースの医療における推奨事項を時限的に提示する高次推論モデルを提案する。
このシステムでは,Large Language Model (LLM) が使用されている。
実験では、LSMは「What-if」シナリオで最適な性能を示し、人間の医師の治療計画と88.52%の類似性を達成した。
この「Why-not」のシナリオでは、ICUから退院後に死亡した患者の70%に代替治療計画を選択する傾向があった。
So-What」のシナリオでは、最適モデルはICU患者に対する治療計画の動機と意義を詳細に分析し、実際の診断情報と55.6%の類似性を達成した。
How-about" のシナリオでは、LLM の最高性能は66.5%のコンテント類似性を示し、同様の疾患に移行する治療計画を設計した。
一方,ILMはICUからの退院後の患者の生活状態を70%の精度で予測することができた。
In time-critical decisions, human decision-makers can interact with AI-enabled situation-aware software to evaluate many imminent and possible scenarios, retrieve billions of facts, and estimate different outcomes based on trillions of parameters in a fraction of a second. In high-order reasoning, "what-if" questions can be used to challenge the assumptions or pre-conditions of the reasoning, "why-not" questions can be used to challenge on the method applied in the reasoning, "so-what" questions can be used to challenge the purpose of the decision, and "how-about" questions can be used to challenge the applicability of the method. When above high-order reasoning questions are applied to assist human decision-making, it can help humans to make time-critical decisions and avoid false-negative or false-positive types of errors. In this paper, we present a model of high-order reasoning to offer recommendations in evidence-based medicine in a time-critical fashion for the applications in ICU. The Large Language Model (LLM) is used in our system. The experiments demonstrated the LLM exhibited optimal performance in the "What-if" scenario, achieving a similarity of 88.52% with the treatment plans of human doctors. In the "Why-not" scenario, the best-performing model tended to opt for alternative treatment plans in 70% of cases for patients who died after being discharged from the ICU. In the "So-what" scenario, the optimal model provided a detailed analysis of the motivation and significance of treatment plans for ICU patients, with its reasoning achieving a similarity of 55.6% with actual diagnostic information. In the "How-about" scenario, the top-performing LLM demonstrated a content similarity of 66.5% in designing treatment plans transferring for similar diseases. Meanwhile, LLMs managed to predict the life status of patients after their discharge from the ICU with an accuracy of 70%. | 翻訳日:2024-05-07 15:24:13 公開日:2024-05-05 |
# AC-MAMBASEG : 適応的畳み込みとマンバを基盤とした皮膚病変セグメンテーション
AC-MAMBASEG: An adaptive convolution and Mamba-based architecture for enhanced skin lesion segmentation ( http://arxiv.org/abs/2405.03011v1 ) ライセンス: Link先を確認 | Viet-Thanh Nguyen, Van-Truong Pham, Thi-Thao Tran, | (参考訳) 皮膚病変のセグメンテーションは皮膚疾患のコンピュータ診断システムにおいて重要な課題である。
医用画像からの皮膚病変の正確な分画は早期発見,診断,治療計画に不可欠である。
本稿では,ハイブリッドCNN-Mambaバックボーンを有する拡張モデルであるAC-MambaSegを新たに提案し,CBAM(Convolutional Block Attention Module)やAttention Gate,Selective Kernel Bottleneckなどの高度なコンポーネントを統合する。
AC-MambaSegはVision Mambaフレームワークを利用して効率的な特徴抽出を行う一方、CBAMとSelective Kernel Bottleneckは情報領域に集中し、バックグラウンドノイズを抑制する能力を高めている。
我々は,ISIC-2018やPH2を含む皮膚病変画像の多様なデータセットを用いたAC-MambaSegの性能評価を行い,既存のセグメンテーション法と比較した。
本モデルは,コンピュータ支援診断システムの改善と皮膚疾患の早期発見と治療の促進に有望な可能性を示唆する。
私たちのソースコードは、https://github.com/vietthanh2710/AC-MambaSegで公開されます。
Skin lesion segmentation is a critical task in computer-aided diagnosis systems for dermatological diseases. Accurate segmentation of skin lesions from medical images is essential for early detection, diagnosis, and treatment planning. In this paper, we propose a new model for skin lesion segmentation namely AC-MambaSeg, an enhanced model that has the hybrid CNN-Mamba backbone, and integrates advanced components such as Convolutional Block Attention Module (CBAM), Attention Gate, and Selective Kernel Bottleneck. AC-MambaSeg leverages the Vision Mamba framework for efficient feature extraction, while CBAM and Selective Kernel Bottleneck enhance its ability to focus on informative regions and suppress background noise. We evaluate the performance of AC-MambaSeg on diverse datasets of skin lesion images including ISIC-2018 and PH2; then compare it against existing segmentation methods. Our model shows promising potential for improving computer-aided diagnosis systems and facilitating early detection and treatment of dermatological diseases. Our source code will be made available at: https://github.com/vietthanh2710/AC-MambaSeg. | 翻訳日:2024-05-07 15:24:13 公開日:2024-05-05 |
# 実数量子理論と複素数量子理論の効率的な判別
Efficient discrimination between real and complex quantum theories ( http://arxiv.org/abs/2405.03013v1 ) ライセンス: Link先を確認 | Josep Batle, Tomasz Białecki, Tomasz Rybotycki, Jakub Tworzydło, Adam Bednorz, | (参考訳) ベル型パラメータ上での複素-実バウンドのより大きい比で実数に基づく量子論の不合理性を示すテストを改善する。
以前の理論的および実験的提案とは対照的に、このテストでは、当事者に対して$A$と$C$の3つの設定が必要であり、また、ソースの分離性を想定して、中間者に対して$B$の6つの設定も必要である。
実理論に課される対称構成の上限は14.88ドル、複素最大値は18ドルである。
この大きな理論的な違いは、設計された量子ネットワークを介してIBMの量子コンピュータに共謀的な実験的違反を実証し、その結果、実際の境界を超える標準偏差80ドル以上で15.44ドルを得ることができる。
We improve the test to show the impossibility of a quantum theory based on real numbers by a larger ratio of complex-to-real bound on a Bell-type parameter. In contrast to previous theoretical and experimental proposals the test requires three setting for the parties $A$ and $C$, but also six settings for the middle party $B$, assuming separability of the sources. The bound for this symmetric configuration imposed on a real theory is $14.88$ whilst the complex maximum is $18$. This large theoretical difference enables us to demonstrate the concomitant experimental violation on IBM quantum computer via a designed quantum network, obtaining as a result $15.44$ at more than $80$ standard deviations above the real bound. | 翻訳日:2024-05-07 15:24:13 公開日:2024-05-05 |
# Matten氏:Mamba-Attentionを使ったビデオ生成
Matten: Video Generation with Mamba-Attention ( http://arxiv.org/abs/2405.03025v1 ) ライセンス: Link先を確認 | Yu Gao, Jiancheng Huang, Xiaopeng Sun, Zequn Jie, Yujie Zhong, Lin Ma, | (参考訳) 本稿では,映像生成のためのMamba-Attentionアーキテクチャを用いた最先端の潜伏拡散モデルであるMattenを紹介する。
最小の計算コストで、Mattenは局所的なビデオコンテンツモデリングとグローバルなビデオコンテンツモデリングのための双方向のMambaに空間的注意を払っている。
我々の総合的な実験的評価は、Mattenが現在のTransformerベースのモデルやGANベースのモデルとベンチマーク性能で競合し、優れたFVDスコアと効率を実現していることを示している。
さらに,設計モデルの複雑さと映像品質の向上との間には,直接的正の相関関係が見られ,Mattenの優れたスケーラビリティが示唆された。
In this paper, we introduce Matten, a cutting-edge latent diffusion model with Mamba-Attention architecture for video generation. With minimal computational cost, Matten employs spatial-temporal attention for local video content modeling and bidirectional Mamba for global video content modeling. Our comprehensive experimental evaluation demonstrates that Matten has competitive performance with the current Transformer-based and GAN-based models in benchmark performance, achieving superior FVD scores and efficiency. Additionally, we observe a direct positive correlation between the complexity of our designed model and the improvement in video quality, indicating the excellent scalability of Matten. | 翻訳日:2024-05-07 15:24:13 公開日:2024-05-05 |
# 量子古典的畳み込みニューラルネットワークにおけるデータ符号化の効果の理解
Understanding the effects of data encoding on quantum-classical convolutional neural networks ( http://arxiv.org/abs/2405.03027v1 ) ライセンス: Link先を確認 | Maureen Monnet, Nermine Chaabani, Theodora-Augustina Dragan, Balthasar Schachtner, Jeanette Miriam Lorenz, | (参考訳) 量子機械学習は、最近様々なアプリケーションに適用され、古典的手法に匹敵する結果をもたらす。
これらの結果は、いつ、なぜ改善が観察できるのか、より詳細な調査を保証します。
量子化法の主要な構成要素は、古典的なデータを量子状態に埋め込むために使用されるデータ符号化戦略である。
しかし、特定のユースケースが与えられたフィッティング符号化戦略の選択に関する明確なコンセンサスはまだ得られていない。
本研究では、2つの医用画像データセット上での量子古典的畳み込みニューラルネットワーク(QCCNN)の性能に与える影響について検討する。
1つの符号化法が他の符号化法より優れている理由を理解するために、2つの方向を探索する。
量子古典的アーキテクチャの性能と様々な量子メトリクスとの潜在的な相関について検討した。
次に、変分量子回路がフーリエ型和を生成するため、量子回路のフーリエ級分解を分析する。
量子メトリクスはこの問題に関して限られた洞察を与えるが、フーリエ係数解析はQCCNNにおけるデータエンコーディングの効果を理解するためのより良い手がかりを提供するように見える。
Quantum machine learning was recently applied to various applications and leads to results that are comparable or, in certain instances, superior to classical methods, in particular when few training data is available. These results warrant a more in-depth examination of when and why improvements can be observed. A key component of quantum-enhanced methods is the data encoding strategy used to embed the classical data into quantum states. However, a clear consensus on the selection of a fitting encoding strategy given a specific use-case has not yet been reached. This work investigates how the data encoding impacts the performance of a quantum-classical convolutional neural network (QCCNN) on two medical imaging datasets. In the pursuit of understanding why one encoding method outperforms another, two directions are explored. Potential correlations between the performance of the quantum-classical architecture and various quantum metrics are first examined. Next, the Fourier series decomposition of the quantum circuits is analyzed, as variational quantum circuits generate Fourier-type sums. We find that while quantum metrics offer limited insights into this problem, the Fourier coefficients analysis appears to provide better clues to understand the effects of data encoding on QCCNNs. | 翻訳日:2024-05-07 15:24:13 公開日:2024-05-05 |
# a[4,2,2]-エンコードされた変分量子固有解法アンザッツの論理誤差率
Logical Error Rates for a [[4,2,2]]-Encoded Variational Quantum Eigensolver Ansatz ( http://arxiv.org/abs/2405.03032v1 ) ライセンス: Link先を確認 | Meenambika Gowrishankar, Daniel Claudino, Jerimiah Wright, Travis Humble, | (参考訳) ノイズの多い中間スケール量子(NISQ)コンピューティングデバイス上で動作するアプリケーションベンチマークでは、精度と精度を改善するためにエラーを緩和する技術が必要である。
量子エラー検出符号は、量子計算を符号化し、いつエラーが発生したかを特定するためのフレームワークを提供する。
しかし、その後の論理誤差率は、符号化されたアプリケーション回路と基礎となるノイズに依存する。
ここでは、[4,2,2]量子誤り検出コードが、符号化された変分量子固有解法(VQE)の論理誤差率、精度、精度をどのように改善するかを定量化する。
我々は, 水素分子のエネルギーを1.6mHaの化学的精度で推定するための符号化VQEの性能をベンチマークし, 種々のポストセレクション法の成功率のトレードオフを管理した。
ノイズ混合状態生成の数値シミュレーションを用いて, サンプルの損失増大コストにおいても, 最も積極的な選択後の手法により, 符号化された推定値の精度と精度が向上することが判明した。
Application benchmarks that run on noisy, intermediate-scale quantum (NISQ) computing devices require techniques for mitigating errors to improve accuracy and precision. Quantum error detection codes offer a framework by which to encode quantum computations and identify when errors occur. However, the subsequent logical error rate depends on the encoded application circuit as well as the underlying noise. Here, we quantify how the [[4,2,2]] quantum error detection code improves the logical error rate, accuracy, and precision of an encoded variational quantum eigensolver (VQE) application. We benchmark the performance of the encoded VQE for estimating the energy of the hydrogen molecule with a chemical accuracy of 1.6 mHa while managing the trade-off between probability of success of various post-selection methods. Using numerical simulation of the noisy mixed state preparation, we find that the most aggressive post-selection strategies improve the accuracy and precision of the encoded estimates even at the cost of increasing loss of samples. | 翻訳日:2024-05-07 15:24:13 公開日:2024-05-05 |
# 暗号における力学系の利用について
On the use of dynamical systems in cryptography ( http://arxiv.org/abs/2405.03038v1 ) ライセンス: Link先を確認 | Samuel Everett, | (参考訳) 非線形科学と暗号の結びつきが明らかになって以来、カオス力学を暗号システムの構築に適用する問題は広く知られるようになり、何千もの論文の主題となっている。
しかし、この分野は主流の暗号では存在していない。
本論文の目的は,この問題を2つの方法で解決することである。
1つ目は、インターバルのカオスマップの反復に基づいて -- ストリーム暗号のセキュリティを攻撃し、テストするために使用できる新しいアルゴリズムを提供することである。
2つ目は、カオスベースの暗号の研究者が、現代の暗号の極端な標準を満たす可能性が高い暗号プロトコルを設計し始めることができるように、現代の暗号および複雑性理論言語に離散力学系問題を配置することである。
Ever since the link between nonlinear science and cryptography became apparent, the problem of applying chaotic dynamics to the construction of cryptographic systems has gained a broad audience and has been the subject of thousands of papers. Yet, the field has not found its place in mainstream cryptography, largely due to persistent weaknesses in the presented systems. The goal of this paper is to help remedy this problem in two ways. The first is by providing a new algorithm that can be used to attack -- and hence test the security of -- stream ciphers based on the iteration of a chaotic map of the interval. The second is to cast discrete dynamical systems problems in a modern cryptographic and complexity theoretic language, so that researchers working in chaos-based cryptography can begin designing cryptographic protocols that have a better chance of meeting the extreme standards of modern cryptography. | 翻訳日:2024-05-07 15:24:13 公開日:2024-05-05 |
# 電動スクータの実時間物体検出の性能評価
Performance Evaluation of Real-Time Object Detection for Electric Scooters ( http://arxiv.org/abs/2405.03039v1 ) ライセンス: Link先を確認 | Dong Chen, Arman Hosseini, Arik Smith, Amir Farzin Nikkhah, Arsalan Heydarian, Omid Shoghli, Bradford Campbell, | (参考訳) 電動スクーター(電動スクーター)は都市部の交通手段として急速に普及しているが、重大な安全上の課題を生じさせている。
米国では、eスクーターの上昇は、関連する負傷者や死亡者の増加に関連している。
近年、衝突を避けるために、ディープラーニング物体検出は自動運転車において最も重要視されているが、eスクータの文脈での応用はいまだに未解明である。
本稿では,e-スクータ用に設計された最先端物体検出器の有効性と効率を評価することで,このギャップを解消する。
これを達成するために、22個の最先端のYOLOオブジェクト検出器(YOLOv3, YOLOv5, YOLOv6, YOLOv7, YOLOv8)を含む最初の総合的なベンチマークが、E-Scooterを特徴とする自己収集データセットを使用してリアルタイムのトラフィックオブジェクト検出のために確立された。
mAP@0.5で測定された検出精度は27.4%(YOLOv7-E6E)から86.8%(YOLOv5s)である。
すべてのYOLOモデル、特にYOLOv3-tinyは、E-Scooterのコンテキストにおいて、リアルタイムオブジェクト検出の有望な可能性を示している。
この研究におけるモデルベンチマークのためのトラフィックシーンデータセット (https://zenodo.org/records/10578641) とソフトウェアプログラムコード (https://github.com/DongChen06/ScooterDet) の両方が公開されている。
Electric scooters (e-scooters) have rapidly emerged as a popular mode of transportation in urban areas, yet they pose significant safety challenges. In the United States, the rise of e-scooters has been marked by a concerning increase in related injuries and fatalities. Recently, while deep-learning object detection holds paramount significance in autonomous vehicles to avoid potential collisions, its application in the context of e-scooters remains relatively unexplored. This paper addresses this gap by assessing the effectiveness and efficiency of cutting-edge object detectors designed for e-scooters. To achieve this, the first comprehensive benchmark involving 22 state-of-the-art YOLO object detectors, including five versions (YOLOv3, YOLOv5, YOLOv6, YOLOv7, and YOLOv8), has been established for real-time traffic object detection using a self-collected dataset featuring e-scooters. The detection accuracy, measured in terms of mAP@0.5, ranges from 27.4% (YOLOv7-E6E) to 86.8% (YOLOv5s). All YOLO models, particularly YOLOv3-tiny, have displayed promising potential for real-time object detection in the context of e-scooters. Both the traffic scene dataset (https://zenodo.org/records/10578641) and software program codes (https://github.com/DongChen06/ScooterDet) for model benchmarking in this study are publicly available, which will not only improve e-scooter safety with advanced object detection but also lay the groundwork for tailored solutions, promising a safer and more sustainable urban micromobility landscape. | 翻訳日:2024-05-07 15:24:13 公開日:2024-05-05 |
# 負の確率
Negative Probability ( http://arxiv.org/abs/2405.03043v1 ) ライセンス: Link先を確認 | Nick Polson, Vadim Sokolov, | (参考訳) 負の確率は主に量子論と計算に現れる。
Bartlett は特性関数と異常なランダム変数に基づく定義を提供する。
バートレットが観察するように、任意の物理的解釈が許容される前に、負の確率は正の確率と組み合わさらなければならない。
負の確率は、ベイズモデルにおける観測されていない潜在変数の混合分布として生じる。
我々のゴールは、双対密度と正規分布のスケール混合のクラスとのリンクを提供することである。
古典的半コイン分布とファインマンの負の確率例を解析する。
リンニク分布、ウィグナー分布、安定分布を含む負混合度をもつ二重密度の例を多数提供する。
最後に,今後の研究の方向性について述べる。
Negative probabilities arise primarily in quantum theory and computing. Bartlett provides a definition based on characteristic functions and extraordinary random variables. As Bartlett observes, negative probabilities must always be combined with positive probabilities to yield a valid probability distribution before any physical interpretation is admissible. Negative probabilities arise as mixing distributions of unobserved latent variables in Bayesian modeling. Our goal is to provide a link with dual densities and the class of scale mixtures of normal distributions. We provide an analysis of the classic half coin distribution and Feynman's negative probability examples. A number of examples of dual densities with negative mixing measures including the linnik distribution, Wigner distribution and the stable distribution are provided. Finally, we conclude with directions for future research. | 翻訳日:2024-05-07 15:24:13 公開日:2024-05-05 |
# 非調和環境における量子平均力ギブス状態への超強結合限界
Ultrastrong coupling limit to quantum mean force Gibbs state for anharmonic environment ( http://arxiv.org/abs/2405.03044v1 ) ライセンス: Link先を確認 | Prem Kumar, Sibasish Ghosh, | (参考訳) 量子系の平衡状態は、系の環境結合が弱くない場合、ギブス状態から逸脱することができる。
この平均力ギブス状態(MFGS)の解析式は、調和環境を前提としたカルデイラ・レゲットモデル(CL)の超強結合(USC)系で知られている。
ここでは、より一般的なシステム環境モデルのためのUSC体制におけるMFGSの分析式を導出する。
ここで考慮された一般化されたモデル全てに対して、UCの場合と同様に、システム環境相互作用によって設定された基底においてUSC状態は対角的である。
ジェネリックモデルについては、対応するUSC-MFGS状態がCL-resultから変化していることが分かるが、CL-USC結果が変化しないCL-モデルよりも一般的なモデルのクラスを特定する。
また,結果の数値検証も行う。
これらの結果は、より現実的なシステム環境モデルの下での強い結合熱力学の研究のための重要なツールを提供する。
The equilibrium state of a quantum system can deviate from the Gibbs state if the system-environment coupling is not weak. An analytical expression for this mean force Gibbs state (MFGS) is known in the ultrastrong coupling (USC) regime for the Caldeira-Leggett (CL) model that assumes a harmonic environment. Here, we derive analytical expressions for the MFGS in the USC regime for more general system-environment models. For all the generalized models considered here, we find the USC state to be diagonal in the basis set by the system-environment interaction, just like in the CL case. While for the generic model considered, the corresponding USC-MFGS state is found to alter from the CL-result, we do identify a class of models more general than the CL-model for which the CL-USC result remains unchanged. We also provide numerical verification for our results. These results provide key tools for the study of strong coupling thermodynamics under more realistic system-environment models, going beyond the CL-model. | 翻訳日:2024-05-07 15:24:13 公開日:2024-05-05 |
# Swipe2Pair:セキュアで高速なバンド内ワイヤレスペアリング
Swipe2Pair: Secure and Fast In-Band Wireless Device Pairing ( http://arxiv.org/abs/2405.03045v1 ) ライセンス: Link先を確認 | Yaqi He, Kai Zeng, Long Jiao, Brian L. Mark, Khaled N. Khasawneh, | (参考訳) ワイヤレスデバイスペアリングは、2つのデバイス間のセキュアな通信を、事前に共有された秘密なしでブートストラップする重要なセキュリティメカニズムである。
スマートホームやスマートヘルスなど、多くのモノのインターネット(IoT)アプリケーションで広く使用されている。
ほとんどの既存のデバイスペアリングメカニズムは、ペアリングデバイスの近接性を検証するために、帯域外チャネル(例えば、追加のセンサーやハードウェア)に基づいている。
しかし、帯域外チャネルはすべての無線デバイスで普遍的ではないため、そのようなスキームは特定のアプリケーションシナリオや条件に限られる。
一方、帯域内チャネルベースのデバイスペアリングは、無線インターフェースのみに依存することにより、普遍的な適用性を求める。
既存の帯域内チャネルベースのペアリング方式では、特定のシナリオでは実現不可能な1つのペアリングデバイス上で、良好な距離で分離された複数のアンテナを必要とするか、ユーザビリティの観点からは最適ではない複数のスイープを繰り返す必要がある。
したがって、高いユーザビリティを維持しつつ高いセキュリティ(単純なペアリングプロセスと最小限のユーザ介入)を提供する帯域内無線デバイスペアリング方式が望まれる。
本研究では、ペアリング装置の近接と無線伝送電力のランダム化に基づく、使い易い相互認証装置ペアリング方式Swipe2Pairを提案する。
我々は、広範囲にわたるセキュリティ分析を行い、様々な環境下でかなりの実験データを収集する。
実験の結果,Swipe2Pairは高いセキュリティとユーザビリティを実現することがわかった。
ペアリングを完了させるのに1秒もかからないが、片方のデバイスを片方のデバイスの前にスワイプするだけでよい。
Wireless device pairing is a critical security mechanism to bootstrap the secure communication between two devices without a pre-shared secret. It has been widely used in many Internet of Things (IoT) applications, such as smart-home and smart-health. Most existing device pairing mechanisms are based on out-of-band channels, e.g., extra sensors or hardware, to validate the proximity of pairing devices. However, out-of-band channels are not universal across all wireless devices, so such a scheme is limited to certain application scenarios or conditions. On the other hand, in-band channel-based device pairing seeks universal applicability by only relying on wireless interfaces. Existing in-band channel-based pairing schemes either require multiple antennas separated by a good distance on one pairing device, which is not feasible in certain scenarios, or require users to repeat multiple sweeps, which is not optimal in terms of usability. Therefore, an in-band wireless device pairing scheme providing high security while maintaining high usability (simple pairing process and minimal user intervention) is highly desired. In this work, we propose an easy-to-use mutual authentication device pairing scheme, named Swipe2Pair, based on the proximity of pairing devices and randomization of wireless transmission power. We conduct extensive security analysis and collect considerable experimental data under various settings across different environments. Experimental results show that Swipe2Pair achieves high security and usability. It only takes less than one second to complete the pairing process with a simple swipe of one device in front of the other. | 翻訳日:2024-05-07 15:24:13 公開日:2024-05-05 |
# 統計的テスト理論から見た分布外同定の一考察
A View on Out-of-Distribution Identification from a Statistical Testing Theory Perspective ( http://arxiv.org/abs/2405.03052v1 ) ライセンス: Link先を確認 | Alberto Caron, Chris Hicks, Vasilios Mavroudis, | (参考訳) 本研究では,教師なしおよび教師なしの学習文脈において,テスト時間におけるOODサンプルを効率的に検出する問題について検討する。
MLモデルは通常、トレーニングとテストデータが同じ分散に由来するという前提でトレーニングされるが、現実的な設定ではそうではないことが多いため、デプロイメントにおいて確実に分散シフトを検出することが不可欠である。
我々は,OOD問題を統計的検定のレンズで再定式化し,OOD問題を統計的に特定可能な条件について議論する。
この枠組みに基づいて、ワッサーシュタイン距離に基づくOOD試験の収束保証について検討し、簡単な経験的評価を行う。
We study the problem of efficiently detecting Out-of-Distribution (OOD) samples at test time in supervised and unsupervised learning contexts. While ML models are typically trained under the assumption that training and test data stem from the same distribution, this is often not the case in realistic settings, thus reliably detecting distribution shifts is crucial at deployment. We re-formulate the OOD problem under the lenses of statistical testing and then discuss conditions that render the OOD problem identifiable in statistical terms. Building on this framework, we study convergence guarantees of an OOD test based on the Wasserstein distance, and provide a simple empirical evaluation. | 翻訳日:2024-05-07 15:24:13 公開日:2024-05-05 |
# グレディ量子経路生成アルゴリズム
A Greedy Quantum Route-Generation Algorithm ( http://arxiv.org/abs/2405.03054v1 ) ライセンス: Link先を確認 | Jordan Makansi, | (参考訳) 時間窓によるルーティングとスケジューリングの問題は、長年、物流と計画にとって重要な最適化問題であった。
多くの古典的ヒューリスティックや正確な方法が存在する。
しかし、量子コンピューティング(QC)を用いたルート生成には、主に不等式制約と実現可能性のトレードオフとソリューション品質の2つの理由から満足できる方法がない。
不等式制約は通常、スラック変数を使用して処理される。
これらの課題は、QC固有のノイズの存在において増幅される。
本稿では、量子コンピュータから得られた全てのサンプルから情報を用いて経路を生成するグリージーアルゴリズムを提案する。
有向非巡回グラフ (DAG) としての定式化における量子ビットの関係に気付き, 実現可能な解を適応的に構築するアルゴリズムを設計した。
本研究では,Fleet Size Vehicle Routing Problem with Time Windows (FSVRPTW) を解くことで,実現可能なソリューションへの収束性を証明し,その有効性を示す。
計算結果から,本手法は,D-Wave Hybrid Solvers を用いて,古典的,ハイブリッド的,最先端のアニール法よりも低い目的値が得られることがわかった。
また,DWaveSampler のフィルタ手法と比較して,D-Wave Advantage 4.1 の雑音に対する頑健性を示す。
Routing and scheduling problems with time windows have long been important optimization problems for logistics and planning. Many classical heuristics and exact methods exist for such problems. However, there are no satisfactory methods for generating routes using quantum computing (QC), for mainly two reasons: inequality constraints, and the trade-off of feasibility and solution quality. Inequality constraints are typically handled using slack variables; and feasible solutions are found by filtering samples. These challenges are amplified in the presence of noise inherent in QC. Here, we propose a greedy algorithm that generates routes by using information from all samples obtained from the quantum computer. By noticing the relationship between qubits in our formulation as a directed acyclic graph (DAG), we designed an algorithm that adaptively constructs a feasible solution. We prove its convergence to a feasible solution, and illustrate its efficacy by solving the Fleet Sizing Vehicle Routing Problem with Time Windows (FSVRPTW). Our computational results show that this method obtains a lower objective value than the current state-of-the-art annealing approaches, both classical and hybrid, for the same amount of time using D-Wave Hybrid Solvers. We also show its robustness to noise on D-Wave Advantage 4.1 through computational results as compared to the filtering approach on DWaveSampler, even when the filtering approach is given a longer annealing time, and a larger sample size. | 翻訳日:2024-05-07 15:24:13 公開日:2024-05-05 |
# 3次元ポーズ推定のためのマルチホップグラフトランスフォーマーネットワーク
Multi-hop graph transformer network for 3D human pose estimation ( http://arxiv.org/abs/2405.03055v1 ) ライセンス: Link先を確認 | Zaedul Islam, A. Ben Hamza, | (参考訳) 正確な3次元ポーズ推定は、オクルージョンと深さのあいまいさのために難しい課題である。
本稿では,2次元から3次元の人間のポーズ推定のためのマルチホップグラフトランスフォーマーネットワークを提案する。
提案するネットワークアーキテクチャは,学習可能な隣接行列を用いたマルチヘッド自己注意層とグラフ畳み込み層からなるグラフアテンションブロックと,マルチホップ畳み込み層と拡張畳み込み層からなるマルチホップグラフ畳み込みブロックからなる。
マルチヘッド自己アテンションとマルチホップグラフ畳み込みレイヤを組み合わせることで、モデルが局所的およびグローバルな依存関係の両方をキャプチャし、一方、拡張畳み込みレイヤの統合により、人体関節の正確な位置決めに必要な空間的詳細を扱う能力が向上する。
大規模な実験により、ベンチマークデータセット上での競合性能を実現し、モデルの有効性と一般化能力を実証した。
Accurate 3D human pose estimation is a challenging task due to occlusion and depth ambiguity. In this paper, we introduce a multi-hop graph transformer network designed for 2D-to-3D human pose estimation in videos by leveraging the strengths of multi-head self-attention and multi-hop graph convolutional networks with disentangled neighborhoods to capture spatio-temporal dependencies and handle long-range interactions. The proposed network architecture consists of a graph attention block composed of stacked layers of multi-head self-attention and graph convolution with learnable adjacency matrix, and a multi-hop graph convolutional block comprised of multi-hop convolutional and dilated convolutional layers. The combination of multi-head self-attention and multi-hop graph convolutional layers enables the model to capture both local and global dependencies, while the integration of dilated convolutional layers enhances the model's ability to handle spatial details required for accurate localization of the human body joints. Extensive experiments demonstrate the effectiveness and generalization ability of our model, achieving competitive performance on benchmark datasets. | 翻訳日:2024-05-07 15:24:13 公開日:2024-05-05 |
# 有向非巡回グラフによる畳み込み学習
Convolutional Learning on Directed Acyclic Graphs ( http://arxiv.org/abs/2405.03056v1 ) ライセンス: Link先を確認 | Samuel Rey, Hamed Ajorlou, Gonzalo Mateos, | (参考訳) 我々は、有向非巡回グラフ(DAG)上で定義されたデータから学習するための新しい畳み込みアーキテクチャを開発する。
DAGは変数間の因果関係のモデル化に使用することができるが、その弱弱な隣接行列はDAG信号処理や機械学習ツールの開発にユニークな課題をもたらす。
この制限に対処するために、DAG上の信号に対して因果シフトと畳み込みの代替定義を提供する最近の進歩を利用する。
我々は,学習可能なDAGフィルタを統合した新しい畳み込みグラフニューラルネットワークを開発し,グラフトポロジによって誘導される部分順序を考慮し,DAG支援データの効果的な表現を学習するために有用な帰納バイアスを与える。
提案するDAG畳み込みネットワーク(DCN)の有意義な利点と潜在的な限界について考察し,ネットワーク拡散推定と音源同定という2つの学習課題における性能評価を行った。
DCNはいくつかのベースラインと比較して好意的に比較し、有望な可能性を示している。
We develop a novel convolutional architecture tailored for learning from data defined over directed acyclic graphs (DAGs). DAGs can be used to model causal relationships among variables, but their nilpotent adjacency matrices pose unique challenges towards developing DAG signal processing and machine learning tools. To address this limitation, we harness recent advances offering alternative definitions of causal shifts and convolutions for signals on DAGs. We develop a novel convolutional graph neural network that integrates learnable DAG filters to account for the partial ordering induced by the graph topology, thus providing valuable inductive bias to learn effective representations of DAG-supported data. We discuss the salient advantages and potential limitations of the proposed DAG convolutional network (DCN) and evaluate its performance on two learning tasks using synthetic data: network diffusion estimation and source identification. DCN compares favorably relative to several baselines, showcasing its promising potential. | 翻訳日:2024-05-07 15:24:13 公開日:2024-05-05 |
# 自動プラグマ挿入とコード変換フレームワークによる高レベル合成の強化
Enhancing High-Level Synthesis with Automated Pragma Insertion and Code Transformation Framework ( http://arxiv.org/abs/2405.03058v1 ) ライセンス: Link先を確認 | Stèphane Pouget, Louis-Noël Pouchet, Jason Cong, | (参考訳) 高レベルの合成、ソース・ソース・コンパイラ、およびプラグマ挿入のための様々な設計空間探索技術により、生成された設計結果の品質が大幅に向上した。
これらのツールは、開発時間を短縮し、パフォーマンスを向上するといった利点を提供する。
しかしながら、高品質な結果を達成するには、通常、個別または前処理ステップとして実行される、追加の手動コード変換とタイリング選択が必要になることが多い。
DSE技術は前もってコード変換を可能にするが、検索空間の広大な部分で可能なすべてのコード変換の探索が制限されることが多く、どの変換が必要なのかを判断することは困難である。
さらに、特に複雑な変換や最適化において、正確性を保証することは依然として困難である。
この障害に対処するため,我々はまず,HLSコンパイラを活用した包括的なフレームワークを提案する。
本システムでは,並列化の強化,特に計算バウンドカーネルに有用な並列化の実現を目的として,オンチップデータキャッシングにおけるコード変換,プラグマ挿入,タイルサイズ選択を合理化している。
新たな非線形プログラミング(NLP)アプローチを採用し、正規ループベースのカーネルに焦点をあて、変換、プラグマ、タイルサイズを同時に確認する。
我々の評価は、変換が不要なシナリオを含む、我々のフレームワークが適切に適切な変換を識別し、良好な結果の質を達成するためにプラグマを挿入することを示しています。
High-level synthesis, source-to-source compilers, and various Design Space Exploration techniques for pragma insertion have significantly improved the Quality of Results of generated designs. These tools offer benefits such as reduced development time and enhanced performance. However, achieving high-quality results often requires additional manual code transformations and tiling selections, which are typically performed separately or as pre-processing steps. Although DSE techniques enable code transformation upfront, the vastness of the search space often limits the exploration of all possible code transformations, making it challenging to determine which transformations are necessary. Additionally, ensuring correctness remains challenging, especially for complex transformations and optimizations. To tackle this obstacle, we first propose a comprehensive framework leveraging HLS compilers. Our system streamlines code transformation, pragma insertion, and tiles size selection for on-chip data caching through a unified optimization problem, aiming to enhance parallelization, particularly beneficial for computation-bound kernels. Them employing a novel Non-Linear Programming (NLP) approach, we simultaneously ascertain transformations, pragmas, and tile sizes, focusing on regular loop-based kernels. Our evaluation demonstrates that our framework adeptly identifies the appropriate transformations, including scenarios where no transformation is necessary, and inserts pragmas to achieve a favorable Quality of Results. | 翻訳日:2024-05-07 15:14:27 公開日:2024-05-05 |
# 注文項目のイン・オブ・アウト・サンプルに対するアクティブな選好学習
Active Preference Learning for Ordering Items In- and Out-of-sample ( http://arxiv.org/abs/2405.03059v1 ) ライセンス: Link先を確認 | Herman Bergström, Emil Carlsson, Devdatt Dubhashi, Fredrik D. Johansson, | (参考訳) ノイズの多いペアワイズ比較に基づいてアイテムの順序付けを学習することは、例えばアノテータが主観的な評価を行う場合など、アイテム固有のラベルの割り当てが難しい場合に有用である。
正確な注文を学習するために必要なアノテーションの数を最小限に抑えるため、アイテムの比較を積極的にサンプリングするアルゴリズムが提案されている。
しかし、多くの人はアイテム間の共有構造を無視し、それらを無関係として扱い、サンプル効率を制限し、新しいアイテムへの一般化を先取りする。
そこで本研究では,文脈属性を持つ項目の順序付けを行うために,一対の選好フィードバックを用いたアクティブラーニングについて検討する。
本稿では,ロジスティックな選好モデルの下での能動学習戦略による予測順序誤差を,比較においてアレタリックおよびエピステマティックな不確実性の観点から上界に示し,この境界を鮮明に最小化するために設計された2つのアルゴリズムを提案する。
我々は,これらのアルゴリズムを,人間のアノテータによる比較を含む2つの現実的な画像順序付けタスクで評価し,非文脈的ランキング手法や能動的嗜好学習ベースラインと比較して,より優れたサンプル効率を示す。
Learning an ordering of items based on noisy pairwise comparisons is useful when item-specific labels are difficult to assign, for example, when annotators have to make subjective assessments. Algorithms have been proposed for actively sampling comparisons of items to minimize the number of annotations necessary for learning an accurate ordering. However, many ignore shared structure between items, treating them as unrelated, limiting sample efficiency and precluding generalization to new items. In this work, we study active learning with pairwise preference feedback for ordering items with contextual attributes, both in- and out-of-sample. We give an upper bound on the expected ordering error incurred by active learning strategies under a logistic preference model, in terms of the aleatoric and epistemic uncertainty in comparisons, and propose two algorithms designed to greedily minimize this bound. We evaluate these algorithms in two realistic image ordering tasks, including one with comparisons made by human annotators, and demonstrate superior sample efficiency compared to non-contextual ranking approaches and active preference learning baselines. | 翻訳日:2024-05-07 15:14:27 公開日:2024-05-05 |
# アウト・オブ・ディストリビューション検出のための木に基づくアンサンブル学習
Tree-based Ensemble Learning for Out-of-distribution Detection ( http://arxiv.org/abs/2405.03060v1 ) ライセンス: Link先を確認 | Zhaiming Shen, Menglun Wang, Guang Cheng, Ming-Jun Lai, Lin Mu, Ruihao Huang, Qi Liu, Hao Zhu, | (参考訳) テストサンプルがトレーニングサンプルと同じような分布を持つかどうかを判断できることは、マシンラーニングモデルの大部分を実際に安全にデプロイする前に、対処すべき基本的な問題です。
本稿では,TOOD検出法を提案する。TOOD検出機構は,サンプルの集合がトレーニングサンプルと同様の分布を持つかどうかを判定する。
TOOD検出機構は, 木を用いたアンサンブルモデルを分布内学習サンプルに適合させて得られる, 試験試料のツリー埋め込みの両面ハミング距離を計算した。
私たちのアプローチは、ツリーベースの性質に対して解釈可能で堅牢です。
さらに,本手法は機械学習タスクに柔軟で効率的であり,教師なし設定に容易に一般化できる。
提案手法は, 様々な表, 画像, テキストデータにおいて, 分布外と分布外とを区別するために, 従来のアウト・オブ・ディストリビューション検出法よりも優れていることを示すために, 広範囲な実験を行った。
Being able to successfully determine whether the testing samples has similar distribution as the training samples is a fundamental question to address before we can safely deploy most of the machine learning models into practice. In this paper, we propose TOOD detection, a simple yet effective tree-based out-of-distribution (TOOD) detection mechanism to determine if a set of unseen samples will have similar distribution as of the training samples. The TOOD detection mechanism is based on computing pairwise hamming distance of testing samples' tree embeddings, which are obtained by fitting a tree-based ensemble model through in-distribution training samples. Our approach is interpretable and robust for its tree-based nature. Furthermore, our approach is efficient, flexible to various machine learning tasks, and can be easily generalized to unsupervised setting. Extensive experiments are conducted to show the proposed method outperforms other state-of-the-art out-of-distribution detection methods in distinguishing the in-distribution from out-of-distribution on various tabular, image, and text data. | 翻訳日:2024-05-07 15:14:27 公開日:2024-05-05 |
# ウィグナー負光の定常源に対するキャビティQEDシステム
Cavity QED systems for steady-state sources of Wigner-negative light ( http://arxiv.org/abs/2405.03062v1 ) ライセンス: Link先を確認 | Alex Elliott, Scott Parkins, | (参考訳) 本稿では, 定常なウィグナー負光の発生源として, 駆動型開放型Jaynes-Cummingsモデルとその変種を用いた光学キャビティQEDシステムの理論的検討を行う。
キャビティからの連続出力場における時間モードを考察し,実験関連パラメータ状態に対するウィグナー分布の顕著な負性を示す。
単原子スピン系のモデルと集合スピン系のモデルを検討し、スピンサイズが変化するにつれてウィグナー分布負のリッチな構造を見出す。
また、1つの87Rb原子のみを用いて検討し、レーザー+キャビティ駆動ラマン遷移とレーザー+キャビティ駆動ラマン遷移を1つの地中超微粒子状態で組み合わせたモデル全てを効果的に実現した。
We present a theoretical investigation of optical cavity QED systems, as described by the driven, open Jaynes-Cummings model and some of its variants, as potential sources of steady-state Wigner-negative light. We consider temporal modes in the continuous output field from the cavity and demonstrate pronounced negativity in their Wigner distributions for experimentally-relevant parameter regimes. We consider models of both single and collective atomic spin systems, and find a rich structure of Wigner-distribution negativity as the spin size is varied. We also demonstrate an effective realization of all of the models considered using just a single 87Rb atom and based upon combinations of laser- and laser-plus-cavity-driven Raman transitions between magnetic sublevels in a single ground hyperfine state. | 翻訳日:2024-05-07 15:14:27 公開日:2024-05-05 |
# 一般化デバイアスラッソの安定性と再サンプリングに基づく可変選択への応用
Stability of a Generalized Debiased Lasso with Applications to Resampling-Based Variable Selection ( http://arxiv.org/abs/2405.03063v1 ) ライセンス: Link先を確認 | Jingbo Liu, | (参考訳) まず最初にLassoを設計行列に適用し、次にその列の1つを更新する。
一般に、ラッソ係数の符号は変化し、ラッソ解を正確に更新するための閉形式表現は存在しない。
そこで本研究では,デバイアス付きラッソ係数を更新するための近似式を提案する。
我々は、与えられた設計行列の列のノルムと相関の観点で一般的な漸近誤差境界を提供し、次に、サブガウスの行ベクトルとガウスの雑音を持つランダムな設計行列の場合の漸近収束結果を証明した。
特に、設計行列の各行が、有界な条件数を持つ共分散行列を持つ準ガウス的であるという穏やかな仮定の下で、近似式は比例成長状態のほとんどの座標に対して漸近的に正しい。
我々の証明は、様々な誤り項と符号数を制御するために、特定の濃度と反集中性しか必要としない。
対照的に、同様に一般的な仮定の下で分布極限性(英語版)(e g \ Gaussian limit for the debiased Lasso)を厳密に確立することは、普遍性理論において開問題とみなされている。
応用として、近似式により、条件付きランダム化テストやノックオフフィルタの変種など、複数のラッソ問題の解法を必要とする変数選択アルゴリズムの計算複雑性を低減できることを示す。
Suppose that we first apply the Lasso to a design matrix, and then update one of its columns. In general, the signs of the Lasso coefficients may change, and there is no closed-form expression for updating the Lasso solution exactly. In this work, we propose an approximate formula for updating a debiased Lasso coefficient. We provide general nonasymptotic error bounds in terms of the norms and correlations of a given design matrix's columns, and then prove asymptotic convergence results for the case of a random design matrix with i.i.d.\ sub-Gaussian row vectors and i.i.d.\ Gaussian noise. Notably, the approximate formula is asymptotically correct for most coordinates in the proportional growth regime, under the mild assumption that each row of the design matrix is sub-Gaussian with a covariance matrix having a bounded condition number. Our proof only requires certain concentration and anti-concentration properties to control various error terms and the number of sign changes. In contrast, rigorously establishing distributional limit properties (e.g.\ Gaussian limits for the debiased Lasso) under similarly general assumptions has been considered open problem in the universality theory. As applications, we show that the approximate formula allows us to reduce the computation complexity of variable selection algorithms that require solving multiple Lasso problems, such as the conditional randomization test and a variant of the knockoff filter. | 翻訳日:2024-05-07 15:14:27 公開日:2024-05-05 |
# RICE:説明による強化学習の学習基盤を突破する
RICE: Breaking Through the Training Bottlenecks of Reinforcement Learning with Explanation ( http://arxiv.org/abs/2405.03064v1 ) ライセンス: Link先を確認 | Zelei Cheng, Xian Wu, Jiahao Yu, Sabrina Yang, Gang Wang, Xinyu Xing, | (参考訳) 深層強化学習(DRL)は、現実世界の応用においてますます重要な役割を担っている。
しかし、複雑なタスク、特にスパース報酬に最適なDRLエージェントを得ることは、依然として大きな課題である。
DRL剤の訓練は、さらなる進歩を伴わずにボトルネックに陥ることがしばしばある。
本稿では,訓練ボトルネックを突破するための説明手法を取り入れた強化学習のための革新的精錬手法であるRICEを提案する。
RICEの高レベルな考え方は、デフォルトの初期状態と説明方法で識別された臨界状態の両方を組み合わせた新しい初期状態分布を構築し、エージェントが混合初期状態から探索することを奨励することである。
慎重に設計することで、我々の精製方式がより厳密な準最適境界を持つことを理論的に保証できる。
様々なRL環境と実世界のアプリケーションでRICEを評価する。
その結果, RICEは, エージェント性能の向上において, 既存の精製方式よりも大幅に優れていた。
Deep reinforcement learning (DRL) is playing an increasingly important role in real-world applications. However, obtaining an optimally performing DRL agent for complex tasks, especially with sparse rewards, remains a significant challenge. The training of a DRL agent can be often trapped in a bottleneck without further progress. In this paper, we propose RICE, an innovative refining scheme for reinforcement learning that incorporates explanation methods to break through the training bottlenecks. The high-level idea of RICE is to construct a new initial state distribution that combines both the default initial states and critical states identified through explanation methods, thereby encouraging the agent to explore from the mixed initial states. Through careful design, we can theoretically guarantee that our refining scheme has a tighter sub-optimality bound. We evaluate RICE in various popular RL environments and real-world applications. The results demonstrate that RICE significantly outperforms existing refining schemes in enhancing agent performance. | 翻訳日:2024-05-07 15:14:27 公開日:2024-05-05 |
# IoTの未来を支える: 最適化された消費電力とプライバシー強化のためのフェデレーション学習
Powering the Future of IoT: Federated Learning for Optimized Power Consumption and Enhanced Privacy ( http://arxiv.org/abs/2405.03065v1 ) ライセンス: Link先を確認 | Ghazaleh Shirvani, Saeid Ghasemshirazi, | (参考訳) モノのインターネットの普及により、大量の知覚データの開発がもたらされ、効果的でスケーラブルなデータ分析ツールを開発する必要がある。
フェデレートラーニングは、IoT環境における消費電力とデータプライバシの固有の課題に対処するための、有望なパラダイムとして登場します。
本稿では、電力消費を軽減し、プライバシとセキュリティ対策を強化することにより、IoTデバイスの長寿命化におけるFLの変革の可能性について検討する。
FLの複雑さを掘り下げ、IoTエコシステム内のコンポーネントやアプリケーションを解明しました。
さらに,IoTの重要な特徴と課題についても論じ,知覚データ処理における機械学習ソリューションの必要性を強調した。
FLはIoTサステナビリティに多くのメリットを導入しているが、制限もある。
本論文は,包括的議論と分析を通じて,持続的かつセキュアなIoTシステムの構築におけるFLの機会と制約を明らかにする。
我々の発見は、新しいアプローチを開発することの重要性を強調し、セキュアでプライバシを重視したIoT環境を構築する際のFLのメリットを最大化するための追加研究を実施している。
The widespread use of the Internet of Things has led to the development of large amounts of perception data, making it necessary to develop effective and scalable data analysis tools. Federated Learning emerges as a promising paradigm to address the inherent challenges of power consumption and data privacy in IoT environments. This paper explores the transformative potential of FL in enhancing the longevity of IoT devices by mitigating power consumption and enhancing privacy and security measures. We delve into the intricacies of FL, elucidating its components and applications within IoT ecosystems. Additionally, we discuss the critical characteristics and challenges of IoT, highlighting the need for such machine learning solutions in processing perception data. While FL introduces many benefits for IoT sustainability, it also has limitations. Through a comprehensive discussion and analysis, this paper elucidates the opportunities and constraints of FL in shaping the future of sustainable and secure IoT systems. Our findings highlight the importance of developing new approaches and conducting additional research to maximise the benefits of FL in creating a secure and privacy-focused IoT environment. | 翻訳日:2024-05-07 15:14:27 公開日:2024-05-05 |
# DSLベースのソースコード変換によるディープラーニングの自動最適化
Automated Deep Learning Optimization via DSL-Based Source Code Transformation ( http://arxiv.org/abs/2405.03067v1 ) ライセンス: Link先を確認 | Ruixin Wang, Minghai Lu, Cody Hao Yu, Yi-Hsiang Lai, Tianyi Zhang, | (参考訳) ディープラーニングモデルはますます大きくなり、複雑になるにつれて、モデルのトレーニングと推論効率を改善することが重要になります。
高度に最適化されたライブラリやパッケージ(DLカーネルとして知られる)が開発されているが、どのカーネルを使うか、どこで使うか、どのように正しく使うかを理解するのは面倒で時間がかかる。
この課題に対処するため、我々はAdopterと呼ばれる自動深層学習OPTimizationアプローチを提案する。
DLモデルアーキテクチャを表現するためにドメイン特化言語(DSL)を設計し、このDSLを活用して、DLカーネルをモデルに統合するのに必要なモデル変換ルールを指定する。
DLモデルのソースコードとカーネルセットの変換ルールを考えると、Adopterはまず言語間解析を行い、DSLのモデルアーキテクチャを特定し、表現します。
次に、Adopterはスコープ分析とサブシーケンスマッチングを行い、変換ルールを適用することができるモデルアーキテクチャ内の場所を特定する。
最後に、Adopterは変換規則を適用するための合成ベースのコード変換法を提案する。
我々はHugging Faceの199モデルと多種多様なDLカーネルのベンチマークをキュレートした。
最先端の自動コード変換技術と比較して、Adopterは精度とリコールをそれぞれ3%と56%向上させるのに役立ちます。
9モデルの詳細な分析により、Adopterはトレーニング速度を22.7%改善し、GPUメモリ使用量を10.5%削減した。
As deep learning models become increasingly bigger and more complex, it is critical to improve model training and inference efficiency. Though a variety of highly optimized libraries and packages (known as DL kernels) have been developed, it is tedious and time-consuming to figure out which kernel to use, where to use, and how to use them correctly. To address this challenge, we propose an Automated Deep learning OPTimization approach called Adopter. We design a Domain-Specific Language (DSL) to represent DL model architectures and leverage this DSL to specify model transformation rules required to integrate a DL kernel into a model. Given the source code of a DL model and the transformation rules for a set of kernels, Adopter first performs inter-procedural analysis to identify and express the model architecture in our DSL. Then, Adopter performs scope analysis and sub-sequence matching to identify locations in the model architecture where the transformation rules can be applied. Finally, Adopter proposes a synthesis-based code transformation method to apply the transformation rule. We curated a benchmark with 199 models from Hugging Face and a diverse set of DL kernels. We found that, compared to a state-of-the-art automated code transformation technique, Adopter helps improve the precision and recall by 3% and 56%, respectively. An in-depth analysis of 9 models revealed that on average, Adopter improved the training speed by 22.7% while decreasing the GPU memory usage by 10.5%. | 翻訳日:2024-05-07 15:14:27 公開日:2024-05-05 |
# 懸濁演算子による確率的・因果推論について
On Probabilistic and Causal Reasoning with Summation Operators ( http://arxiv.org/abs/2405.03069v1 ) ライセンス: Link先を確認 | Duligur Ibeling, Thomas F. Icard, Milan Mossé, | (参考訳) Ibeling et al (2023年)。
Axiomatize increasingly expressive languages of causation and probability, and Mosse et al (2024) shows that reasoning in each causal language(特に、満足度問題) as as reasoning in the only probabilistic or "correlational" which.
アプリケーションに現れる一般的なデバイスをキャプチャするための和演算子の導入 - 因果推論のための$do$-calculus of Pearl (2009) など - 辺縁化を十分に活用する - van der Zander et al (2023) は、これらの初期の複雑性結果を因果的および確率的言語に部分的に拡張している。
我々はこの拡張を完了し、確率的および因果的推論の複雑さを和で完全に特徴づけ、これらが再び同様に困難であることを示す。
意外なことに、ランダム変数値に対する自由変数の許容は、これらのランダム変数の範囲が制限されない限り、決定不可能なシステムをもたらす。
最終的に、Ibeling et al (2023) が提起したオープンな疑問を解き明かし、辺境化(あるいはより一般的に要約)を特徴とするこれらの言語を公理化する。
Ibeling et al. (2023). axiomatize increasingly expressive languages of causation and probability, and Mosse et al. (2024) show that reasoning (specifically the satisfiability problem) in each causal language is as difficult, from a computational complexity perspective, as reasoning in its merely probabilistic or "correlational" counterpart. Introducing a summation operator to capture common devices that appear in applications -- such as the $do$-calculus of Pearl (2009) for causal inference, which makes ample use of marginalization -- van der Zander et al. (2023) partially extend these earlier complexity results to causal and probabilistic languages with marginalization. We complete this extension, fully characterizing the complexity of probabilistic and causal reasoning with summation, demonstrating that these again remain equally difficult. Surprisingly, allowing free variables for random variable values results in a system that is undecidable, so long as the ranges of these random variables are unrestricted. We finally axiomatize these languages featuring marginalization (or more generally summation), resolving open questions posed by Ibeling et al. (2023). | 翻訳日:2024-05-07 15:14:27 公開日:2024-05-05 |
# 不正確な一階リーマン最適化アルゴリズムの収束と複雑度保証
Convergence and Complexity Guarantee for Inexact First-order Riemannian Optimization Algorithms ( http://arxiv.org/abs/2405.03073v1 ) ライセンス: Link先を確認 | Yuchen Li, Laura Balzano, Deanna Needell, Hanbaek Lyu, | (参考訳) 我々は、リーマン勾配とリトラクションが不正確に(かつ安価に)計算される不正確なリーマン勾配降下(RGD)を分析する。
我々の焦点は、不正確なRGDが収束したときの理解と、一般の非凸および制約された設定における複雑さについてである。
我々はこれらの疑問に,TBMM(Tangential Block Majorization-Minimization)の一般的な枠組みで答える。
tBMM が $O(\epsilon^{-2})$イテレーション内の $\epsilon$-定常点に収束することを確立する。
微妙な仮定の下では、全最適性ギャップが有界であれば、各イテレーションにおいてサブプロブレムが不正確に解かれるとき、結果は依然として保たれる。
我々の一般解析は、スティーフェル多様体上の不正確な RGD や近位勾配法を含むリーマン的制約を持つ幅広い古典的アルゴリズムに適用できる。
tBMMは、リーマン制約付き非負のテンソル分解、正規化非負行列分解、低ランク行列回復問題など、様々な問題に適用した場合に、既存の手法よりも優れた性能を示すことを数値的に検証する。
We analyze inexact Riemannian gradient descent (RGD) where Riemannian gradients and retractions are inexactly (and cheaply) computed. Our focus is on understanding when inexact RGD converges and what is the complexity in the general nonconvex and constrained setting. We answer these questions in a general framework of tangential Block Majorization-Minimization (tBMM). We establish that tBMM converges to an $\epsilon$-stationary point within $O(\epsilon^{-2})$ iterations. Under a mild assumption, the results still hold when the subproblem is solved inexactly in each iteration provided the total optimality gap is bounded. Our general analysis applies to a wide range of classical algorithms with Riemannian constraints including inexact RGD and proximal gradient method on Stiefel manifolds. We numerically validate that tBMM shows improved performance over existing methods when applied to various problems, including nonnegative tensor decomposition with Riemannian constraints, regularized nonnegative matrix factorization, and low-rank matrix recovery problems. | 翻訳日:2024-05-07 15:14:27 公開日:2024-05-05 |
# タブラルデータのためのAnoGAN : 異常検出のための新しいアプローチ
AnoGAN for Tabular Data: A Novel Approach to Anomaly Detection ( http://arxiv.org/abs/2405.03075v1 ) ライセンス: Link先を確認 | Aditya Singh, Pavan Reddy, | (参考訳) データ分析における重要な側面である異常検出には、期待された振る舞いから逸脱するパターンを特定することが含まれる。
本研究は, 異常検出, 課題探索, 厳密な悪意ある活動に適応する複雑性に対処する。
サイバーセキュリティ、医療、金融、監視にまたがるアプリケーションでは、異常はしばしば重要な情報や潜在的な脅威を示す。
画像領域におけるAnoGAN(Anomaly Generative Adversarial Network)の成功に触発された本研究では,その原理を表データに拡張する。
コントリビューションには、AnoGANの原則を新しいドメインに適用することや、これまで検出できなかった異常を検出するための有望な進歩が含まれている。
本稿では,正常な動作の動的進化,文脈依存型異常定義,ノイズや不均衡といったデータ関連課題を考慮し,異常検出の多面的性質を考察する。
Anomaly detection, a critical facet in data analysis, involves identifying patterns that deviate from expected behavior. This research addresses the complexities inherent in anomaly detection, exploring challenges and adapting to sophisticated malicious activities. With applications spanning cybersecurity, healthcare, finance, and surveillance, anomalies often signify critical information or potential threats. Inspired by the success of Anomaly Generative Adversarial Network (AnoGAN) in image domains, our research extends its principles to tabular data. Our contributions include adapting AnoGAN's principles to a new domain and promising advancements in detecting previously undetectable anomalies. This paper delves into the multifaceted nature of anomaly detection, considering the dynamic evolution of normal behavior, context-dependent anomaly definitions, and data-related challenges like noise and imbalances. | 翻訳日:2024-05-07 15:14:27 公開日:2024-05-05 |
# アクタークリティカル多目的強化学習における有限時間収束とサンプル複雑度
Finite-Time Convergence and Sample Complexity of Actor-Critic Multi-Objective Reinforcement Learning ( http://arxiv.org/abs/2405.03082v1 ) ライセンス: Link先を確認 | Tianchen Zhou, FNU Hairi, Haibo Yang, Jia Liu, Tian Tong, Fan Yang, Michinari Momma, Yan Gao, | (参考訳) 複数の、潜在的に矛盾する目的を持つ強化学習は、現実の応用において広範に行われているが、この問題は理論的には未解明のままである。
本稿では、多目的強化学習(MORL)問題に取り組み、競合する報酬信号間のトレードオフを反復的に行うMOACという革新的なアクター批判アルゴリズムを提案する。
特に、ディスカウントと平均報酬設定の両方において、有限時間パレート定常収束と対応するサンプル複雑性を初めて解析する。
私たちのアプローチには2つの有能な特徴があります。
(a)MOACは確率的サンプルから最適な共通勾配降下方向を求めることにより累積推定バイアスを緩和する。
これにより、証明可能な収束率とサンプルの複雑さは、目的の個数とは無関係に保証される。
b) 適切な運動量係数を用いて,MOACは手動初期化ではなく,環境からのサンプルを用いて個別の政策勾配の重みを初期化する。
これにより,アルゴリズムの実用性と堅牢性が向上する。
最後に,実世界のデータセットを用いて実験を行い,提案手法の有効性を検証した。
Reinforcement learning with multiple, potentially conflicting objectives is pervasive in real-world applications, while this problem remains theoretically under-explored. This paper tackles the multi-objective reinforcement learning (MORL) problem and introduces an innovative actor-critic algorithm named MOAC which finds a policy by iteratively making trade-offs among conflicting reward signals. Notably, we provide the first analysis of finite-time Pareto-stationary convergence and corresponding sample complexity in both discounted and average reward settings. Our approach has two salient features: (a) MOAC mitigates the cumulative estimation bias resulting from finding an optimal common gradient descent direction out of stochastic samples. This enables provable convergence rate and sample complexity guarantees independent of the number of objectives; (b) With proper momentum coefficient, MOAC initializes the weights of individual policy gradients using samples from the environment, instead of manual initialization. This enhances the practicality and robustness of our algorithm. Finally, experiments conducted on a real-world dataset validate the effectiveness of our proposed method. | 翻訳日:2024-05-07 15:14:27 公開日:2024-05-05 |
# 因果K平均クラスタリング
Causal K-Means Clustering ( http://arxiv.org/abs/2405.03083v1 ) ライセンス: Link先を確認 | Kwangho Kim, Jisu Kim, Edward H. Kennedy, | (参考訳) 因果効果は、しばしば人口の要約によって特徴づけられる。
これらは、サブグループ間で不均一な治療効果があるときに不完全な画像を与えるかもしれない。
サブグループ構造は一般に不明であるため、集団効果よりもサブグループ効果の同定と評価が困難である。
この問題に対する新しい解決策を提案する: Causal k-Means Clusteringは、広く使われているk-means Clusteringアルゴリズムを利用して、未知の部分群構造を明らかにする。
我々の問題は、クラスタ化すべき変数が未知の偽関数であるため、従来のクラスタリング設定とは大きく異なる。
本稿では,既製のアルゴリズムを用いて簡易かつ容易に実装可能なプラグイン推定器を提案し,その収束率について検討する。
また、非パラメトリック効率理論と二重機械学習に基づく新しいバイアス補正推定器を開発し、この推定器が大規模非パラメトリックモデルにおいて高速なルート-n速度と漸近正規性を達成することを示す。
提案手法は,複数の治療レベルを有する近代的な結果研究に特に有用である。
さらに,我々のフレームワークは,部分的に観察された結果や未知の機能など,一般的な擬似アウトカムによるクラスタリングに拡張可能である。
最後に, シミュレーションによる有限標本特性の探索を行い, 青年期物質乱用に対する治療プログラムの研究において提案手法について述べる。
Causal effects are often characterized with population summaries. These might provide an incomplete picture when there are heterogeneous treatment effects across subgroups. Since the subgroup structure is typically unknown, it is more challenging to identify and evaluate subgroup effects than population effects. We propose a new solution to this problem: Causal k-Means Clustering, which harnesses the widely-used k-means clustering algorithm to uncover the unknown subgroup structure. Our problem differs significantly from the conventional clustering setup since the variables to be clustered are unknown counterfactual functions. We present a plug-in estimator which is simple and readily implementable using off-the-shelf algorithms, and study its rate of convergence. We also develop a new bias-corrected estimator based on nonparametric efficiency theory and double machine learning, and show that this estimator achieves fast root-n rates and asymptotic normality in large nonparametric models. Our proposed methods are especially useful for modern outcome-wide studies with multiple treatment levels. Further, our framework is extensible to clustering with generic pseudo-outcomes, such as partially observed outcomes or otherwise unknown functions. Finally, we explore finite sample properties via simulation, and illustrate the proposed methods in a study of treatment programs for adolescent substance abuse. | 翻訳日:2024-05-07 15:14:27 公開日:2024-05-05 |
# 高調波伝達学習とモダリティアライメントを用いた効率的なリモートセンシング
Efficient Remote Sensing with Harmonized Transfer Learning and Modality Alignment ( http://arxiv.org/abs/2404.18253v4 ) ライセンス: Link先を確認 | Tengjun Huang, | (参考訳) Visual and Language Pretraining (VLP)の台頭に伴い、多くのダウンストリームタスクが事前トレーニングのパラダイムを採用しており、さらに微調整も行われている。
このパラダイムは、様々なマルチモーダルな下流タスクにおいてポテンシャルを示してきたが、リモートセンシング領域における実装はいくつかの障害に直面している。
具体的には、同じモダリティの埋め込みを一緒にクラスタ化する傾向は、効率的な移動学習を妨げる。
この問題に対処するために,下流タスクに対するマルチモーダル・トランスファー学習の目的を統一的な視点から検討し,3つの異なる目的に基づいて最適化プロセスを再考する。
本研究では,タスク制約,モダリティアライメント,単一モダリティアライメントを同時に満足する手法であるHarMA(Harmonized Transfer Learning and Modality Alignment)を提案する。
注目すべきは、トレーニングのための外部データを必要としないHarMAは、リモートセンシングの分野で人気の高い2つのマルチモーダル検索タスクにおいて、最先端のパフォーマンスを達成することである。
実験の結果,HarMAは最小限の調整可能なパラメータしか持たない完全微調整モデルに対して,競争力や性能に優れることがわかった。
その単純さから、HarMAは既存のほとんどすべてのマルチモーダル事前学習モデルに統合できる。
本手法により,大規模モデルの幅広い下流タスクへの効率的な適用が促進され,資源消費を大幅に削減できることを期待する。
コードはhttps://github.com/seekerhuang/HarMA.comで入手できる。
With the rise of Visual and Language Pretraining (VLP), an increasing number of downstream tasks are adopting the paradigm of pretraining followed by fine-tuning. Although this paradigm has demonstrated potential in various multimodal downstream tasks, its implementation in the remote sensing domain encounters some obstacles. Specifically, the tendency for same-modality embeddings to cluster together impedes efficient transfer learning. To tackle this issue, we review the aim of multimodal transfer learning for downstream tasks from a unified perspective, and rethink the optimization process based on three distinct objectives. We propose "Harmonized Transfer Learning and Modality Alignment (HarMA)", a method that simultaneously satisfies task constraints, modality alignment, and single-modality uniform alignment, while minimizing training overhead through parameter-efficient fine-tuning. Remarkably, without the need for external data for training, HarMA achieves state-of-the-art performance in two popular multimodal retrieval tasks in the field of remote sensing. Our experiments reveal that HarMA achieves competitive and even superior performance to fully fine-tuned models with only minimal adjustable parameters. Due to its simplicity, HarMA can be integrated into almost all existing multimodal pretraining models. We hope this method can facilitate the efficient application of large models to a wide range of downstream tasks while significantly reducing the resource consumption. Code is available at https://github.com/seekerhuang/HarMA. | 翻訳日:2024-05-07 12:36:45 公開日:2024-05-05 |
# 大規模言語モデルにおけるインクリメンタルラーニングに向けて:批判的レビュー
Towards Incremental Learning in Large Language Models: A Critical Review ( http://arxiv.org/abs/2404.18311v4 ) ライセンス: Link先を確認 | Mladjan Jovanovic, Peter Voss, | (参考訳) インクリメンタルラーニング(Incremental learning)とは、システムが時間とともに知識を習得し、新しいタスクへの適応と一般化を可能にする能力である。
これは知的で現実世界のシステムにとって重要な能力であり、特にデータが頻繁に変化したり、制限されたりする場合に有効である。
このレビューは、大規模言語モデルにおける漸進的学習の包括的分析を提供する。
それは、継続的な学習、メタラーニング、パラメータ効率の学習、およびエキスパートの混合学習を含む、最先端の漸進的な学習パラダイムを合成する。
本研究は,これらのトピックから得られた特定の成果とその重要な要因を説明することで,段階的な学習に有効であることを実証する。
重要な発見は、これらのアプローチの多くはコアモデルを更新せず、リアルタイムでインクリメンタルに更新するものではないことである。
本報告では,今後の研究課題と課題について述べる。
最新の研究成果を集約することにより、インクリメンタルラーニングの包括的理解と、LLMベースのラーニングシステムの設計・開発におけるその意義について考察する。
Incremental learning is the ability of systems to acquire knowledge over time, enabling their adaptation and generalization to novel tasks. It is a critical ability for intelligent, real-world systems, especially when data changes frequently or is limited. This review provides a comprehensive analysis of incremental learning in Large Language Models. It synthesizes the state-of-the-art incremental learning paradigms, including continual learning, meta-learning, parameter-efficient learning, and mixture-of-experts learning. We demonstrate their utility for incremental learning by describing specific achievements from these related topics and their critical factors. An important finding is that many of these approaches do not update the core model, and none of them update incrementally in real-time. The paper highlights current problems and challenges for future research in the field. By consolidating the latest relevant research developments, this review offers a comprehensive understanding of incremental learning and its implications for designing and developing LLM-based learning systems. | 翻訳日:2024-05-07 12:36:45 公開日:2024-05-05 |
# VimTS: クロスドメインの一般化を促進する統一ビデオと画像テキストのスポッター
VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization ( http://arxiv.org/abs/2404.19652v2 ) ライセンス: Link先を確認 | Yuliang Liu, Mingxin Huang, Hao Yan, Linger Deng, Weijia Wu, Hao Lu, Chunhua Shen, Lianwen Jin, Xiang Bai, | (参考訳) テキストスポッティングは、画像やビデオシーケンスからテキスト情報を抽出するタスクであり、画像から画像への変換や画像から画像への一般化といった、ドメイン間の適応の課題に直面している。
本稿では,タスク間の相乗効果を向上し,モデルの一般化能力を向上する,VimTSと呼ばれる新しい手法を提案する。
典型的には、プロンプトクエリ生成モジュールとタスク対応アダプタを提案し、元の単一タスクモデルを、最小限の追加パラメータを持つ画像シナリオとビデオシナリオの両方に適したマルチタスクモデルに効果的に変換する。
Prompt Queries Generation Moduleは、異なるタスク間の明示的な相互作用を促進する一方、Tasks-aware Adapterは、各タスクに適した機能をモデルが動的に学習するのに役立つ。
さらに,より低コストで時間情報を学習できるように,コンテンツ変形場(CoDeF)アルゴリズムを利用した合成ビデオテキストデータセット(VTD-368k)を提案する。
特に,TT-to-IC15,CTW1500-to-TT,TT-to-CTW1500といった6つのクロスドメインベンチマークにおいて,最先端の手法を平均2.6%上回る結果を得た。
ICDAR2015ビデオとDSText v2では,ビデオレベルのクロスドメイン適応では,画像レベルのデータのみを用いて,平均5.5%の精度で従来のエンドツーエンドビデオスポッティング手法を上回ります。
さらに、既存のLarge Multimodal Modelsは、パラメータやデータを大幅に少なくするVimTSモデルとは対照的に、クロスドメインシーンテキストスポッティングの生成に制限があることを示した。
コードとデータセットはhttps://VimTextSpotter.github.ioで公開される。
Text spotting, a task involving the extraction of textual information from image or video sequences, faces challenges in cross-domain adaption, such as image-to-image and image-to-video generalization. In this paper, we introduce a new method, termed VimTS, which enhances the generalization ability of the model by achieving better synergy among different tasks. Typically, we propose a Prompt Queries Generation Module and a Tasks-aware Adapter to effectively convert the original single-task model into a multi-task model suitable for both image and video scenarios with minimal additional parameters. The Prompt Queries Generation Module facilitates explicit interaction between different tasks, while the Tasks-aware Adapter helps the model dynamically learn suitable features for each task. Additionally, to further enable the model to learn temporal information at a lower cost, we propose a synthetic video text dataset (VTD-368k) by leveraging the Content Deformation Fields (CoDeF) algorithm. Notably, our method outperforms the state-of-the-art method by an average of 2.6% in six cross-domain benchmarks such as TT-to-IC15, CTW1500-to-TT, and TT-to-CTW1500. For video-level cross-domain adaption, our method even surpasses the previous end-to-end video spotting method in ICDAR2015 video and DSText v2 by an average of 5.5% on the MOTA metric, using only image-level data. We further demonstrate that existing Large Multimodal Models exhibit limitations in generating cross-domain scene text spotting, in contrast to our VimTS model which requires significantly fewer parameters and data. The code and datasets will be made available at the https://VimTextSpotter.github.io. | 翻訳日:2024-05-07 12:36:45 公開日:2024-05-05 |
# TRAMBA: 携帯・ウェアラブルプラットフォーム上での音声・骨伝導音声の高分解能・高機能化のためのハイブリッドトランスフォーマとマンバアーキテクチャ
TRAMBA: A Hybrid Transformer and Mamba Architecture for Practical Audio and Bone Conduction Speech Super Resolution and Enhancement on Mobile and Wearable Platforms ( http://arxiv.org/abs/2405.01242v2 ) ライセンス: Link先を確認 | Yueyuan Sui, Minghui Zhao, Junxi Xia, Xiaofan Jiang, Stephen Xia, | (参考訳) 本稿では,モバイルおよびウェアラブルプラットフォームに適した音響・骨伝導音声強調のためのハイブリッドトランスフォーマーTRAMBAとMambaアーキテクチャを提案する。
骨伝導音声強調は、モバイルおよびウェアラブルプラットフォームで採用されるには、いくつかの理由から非現実的である。
i) データ収集は労働集約的であり,その結果,不足する。
(II)数百MBのメモリフットプリントを持つ最先端モデルと資源制約システムに適した手法の間には,性能ギャップが存在する。
TRAMBAを振動に基づくセンシングに適応させるため、広範に利用できる音声音声データセットを用いてTRAMBAを事前訓練する。
そして、少量の骨伝導データで微調整を行う。
TRAMBAは、PESQが最大7.3%、STOIが1.8%、メモリフットプリントが桁違いに小さく、推論速度が最大465倍である。
我々はTRAMBAを実システムに統合し、TRAMBAを示す
i)データサンプリングや送信を少なくすることで、ウェアラブルのバッテリ寿命を最大160%向上させる。
(ii) 雑音の多い環境下では, 放送音声よりも高品質な音声を生成する。
(iii)メモリフットプリントは20.0MB未満である。
We propose TRAMBA, a hybrid transformer and Mamba architecture for acoustic and bone conduction speech enhancement, suitable for mobile and wearable platforms. Bone conduction speech enhancement has been impractical to adopt in mobile and wearable platforms for several reasons: (i) data collection is labor-intensive, resulting in scarcity; (ii) there exists a performance gap between state of-art models with memory footprints of hundreds of MBs and methods better suited for resource-constrained systems. To adapt TRAMBA to vibration-based sensing modalities, we pre-train TRAMBA with audio speech datasets that are widely available. Then, users fine-tune with a small amount of bone conduction data. TRAMBA outperforms state-of-art GANs by up to 7.3% in PESQ and 1.8% in STOI, with an order of magnitude smaller memory footprint and an inference speed up of up to 465 times. We integrate TRAMBA into real systems and show that TRAMBA (i) improves battery life of wearables by up to 160% by requiring less data sampling and transmission; (ii) generates higher quality voice in noisy environments than over-the-air speech; (iii) requires a memory footprint of less than 20.0 MB. | 翻訳日:2024-05-07 12:36:45 公開日:2024-05-05 |
# 動的アセット価格モデルの解法における量子曖昧性と指数計算の高速化について
On Quantum Ambiguity and Potential Exponential Computational Speed-Ups to Solving Dynamic Asset Pricing Models ( http://arxiv.org/abs/2405.01479v2 ) ライセンス: Link先を確認 | Eric Ghysels, Jack Morgan, | (参考訳) 量子コンピューティングの解を、アルゴリズムを用いて様々な非線形資産価格モデルに定式化し、理論的には、重ね合わせと絡み合いの量子的性質を利用する古典的手法よりも指数関数的に効率的である。
平衡資産価格の解は量子状態である。
モデル選択に対処するために、あいまいさとモデル/パラメータの不確実性の量子決定理論の基礎を導入する。
We formulate quantum computing solutions to a large class of dynamic nonlinear asset pricing models using algorithms, in theory exponentially more efficient than classical ones, which leverage the quantum properties of superposition and entanglement. The equilibrium asset pricing solution is a quantum state. We introduce quantum decision-theoretic foundations of ambiguity and model/parameter uncertainty to deal with model selection. | 翻訳日:2024-05-07 12:26:52 公開日:2024-05-05 |